데이터가 대규모일 때에는 데이터를 요약 통계량으로 바꾼 다음에 조금 더 복잡한 분석에 들어가야 합니다. 제일 먼저 구해야 하는 두 가지 통계량은 평균값(mean)과 표준편차(standard deviation)입니다. 평균값은 모든 데이터 측정값의 단순 평균을 의미하고, 표준편차는 평균을 중심으로 측정값의 변동성이 얼마나 되는지를 의미합니다.
측정값들이 평균 주위로 고르게 분포돼 있지 않으면 평균은 표본을 대표하는 숫자가 될 수 없습니다. 이때는 표본에서 약 50퍼센트 정중앙에 위차한 값인 중앙값(median)이나 가장 자주 나타나는 값인 최빈값(mode)을 구해야 합니다. 표본 숫자들이 퍼진 정도, 즉 산포 정도를 보여주는 요약 통계량도 있습니다. 왜도(skewness)는 평균을 중심으로 했을 때 표본 숫자들의 대칭성 정도를 나타내고, 첨도(kutoris)는 분포의 뾰족함 정도로서 평균값과 크게 다른 숫자의 빈도를 보여줍니다.
데이터 시각화를 선호하는 사람들이 자주 접하게 되는 것은 숫자를 그래프로 나타내는 분포도입니다. 데이터가 딱딱 떨어지는 이산형(discrete)이라면, 다시 말해 측정값이 유한수로만 구성돼 있으면 그 값이 등장하는 ...





