확률과 통계 기초: 기댓값, 분산, 표준편차

앞면이 나오면 100원을 얻고 뒷면이 나오면 100원을 잃는 동전 던지기 게임이 있다고 하자.

확률변수 X는 사건을 숫자로 바꾸는 함수다. 이 게임에서 확률변수 X를 다음과 같이 정의한다.

X(앞면)=+100, \quad X(뒷면)=-100

앞면과 뒷면이 나올 확률은 똑같이 50%다. 따라서 확률변수 $X$의 분포는 다음과 같다.

P(X=+100)=0.5, \quad P(X=-100)=0.5

이제 기댓값을 계산해보자. 기댓값은 "가능한 값 x 그 값이 나올 확률"을 모두 더한 것이다.

\begin{align} E[X]&=\sum_ix_i\cdot P(X=x_i) \\ &=(100\times0.5)+(-100\times0.5) \\ &=0 \end{align}

확률변수 X의 분산은, X의 값들이 평균(기댓값) 주변에 얼마나 퍼져 있는지를 나타내는 척도다. 분산의 공식은 다음과 같다.

Var(X)=E[(X-E[X])^2]

이는 "평균으로부터 거리를 잴 때, 방향(부호)을 없애고, 멀리 벗어난 값에는 더 큰 가중치를 주기 위해 제곱을 취한 것"으로 이해할 수 있다.

전개하면,

\begin{align} Var(X)&=E[X^2-2X\cdot E[X]+(E[X])^2] \\ &=E[X^2]-2E[X]\cdot E[X]+(E[X])^2 \\ &=E[X^2]-(E[X])^2 \end{align}

사용된 규칙
- 기댓값의 선형성: $E[aX+bY]=aE[X]+bE[Y]$
- 상수 취급: $E[c]=c, \quad E[cX]=cE[X]$
- E[X]는 확률변수가 아니라 수치이므로, 기댓값 연산 안에서는 상수처럼 다룬다.

따라서 분산은 "확률변수 제곱의 기댓값에서 기댓값의 제곱을 뺀 값"이 된다.

동전 던지기 게임의 분산은 다음과 같다.

\begin{align} Var(X)&=\underbrace{(100^2\times0.5+(-100)^2\times0.5)}_{E[X^2]}-\underbrace{0}_{(E[X])^2} \\ &=10,000 \end{align}

그런데 분산 10,000이라는 값은 단위가 제곱($원^2$)이기 때문에 직관적으로 해석하기 어렵다. 이때 분산의 제곱근을 취하면 원래 단위(원)으로 돌아오는데, 이것을 표준편차라고 한다.

모집단 분포를 기준으로 하는 표준편차는 보통 그리스 문자 시그마 σ로 표기한다.

\sigma=\sqrt{Var(X)}

동전 던지기 게임에서는

\sigma=\sqrt{10,000}=100

즉, 이 게임은 평균 수익은 0원이지만, 한 번 던질 때 ±100원 정도의 변동성을 가진다고 해석할 수 있다.

회원가입만 해도
이 글을 무료로 읽을 수 있어요.