앞면이 나오면 100원을 얻고 뒷면이 나오면 100원을 잃는 동전 던지기 게임이 있다고 하자.
기댓값(Expected Value)
확률변수 X는 사건을 숫자로 바꾸는 함수다. 이 게임에서 확률변수 X를 다음과 같이 정의한다.
X(앞면)=+100,X(뒷면)=−100 앞면과 뒷면이 나올 확률은 똑같이 50%다. 따라서 확률변수 $X$의 분포는 다음과 같다.
P(X=+100)=0.5,P(X=−100)=0.5 이제 기댓값을 계산해보자. 기댓값은 "가능한 값 x 그 값이 나올 확률"을 모두 더한 것이다.
E[X]=i∑xi⋅P(X=xi)=(100×0.5)+(−100×0.5)=0
분산(Variance)
확률변수 X의 분산은, X의 값들이 평균(기댓값) 주변에 얼마나 퍼져 있는지를 나타내는 척도다. 분산의 공식은 다음과 같다.
Var(X)=E[(X−E[X])2] 이는 "평균으로부터 거리를 잴 때, 방향(부호)을 없애고, 멀리 벗어난 값에는 더 큰 가중치를 주기 위해 제곱을 취한 것"으로 이해할 수 있다.
전개하면,
Var(X)=E[X2−2X⋅E[X]+(E[X])2]=E[X2]−2E[X]⋅E[X]+(E[X])2=E[X2]−(E[X])2 사용된 규칙
기댓값의 선형성: $E[aX+bY]=aE[X]+bE[Y]$
상수 취급: $E[c]=c, \quad E[cX]=cE[X]$
E[X]는 확률변수가 아니라 수치이므로, 기댓값 연산 안에서는 상수처럼 다룬다.
따라서 분산은 "확률변수 제곱의 기댓값에서 기댓값의 제곱을 뺀 값"이 된다.
동전 던지기 게임의 분산은 다음과 같다.
Var(X)=E[X2](1002×0.5+(−100)2×0.5)−(E[X])20=10,000
표준편차(Standard Deviation)
그런데 분산 10,000이라는 값은 단위가 제곱($원^2$)이기 때문에 직관적으로 해석하기 어렵다. 이때 분산의 제곱근을 취하면 원래 단위(원)으로 돌아오는데, 이것을 표준편차라고 한다.
모집단 분포를 기준으로 하는 표준편차는 보통 그리스 문자 시그마 σ로 표기한다.
σ=Var(X) 동전 던지기 게임에서는
σ=10,000=100 즉, 이 게임은 평균 수익은 0원이지만, 한 번 던질 때 ±100원 정도의 변동성을 가진다고 해석할 수 있다.