수십·수백 개의 측정값을 한 줄로 요약한다 — 평균·중앙값·최빈값. 셋은 모두 "자료를 대표하는 수"지만, 어느 것을 선택할지에 따라 자료가 전혀 다르게 해석된다. 이상치가 있을 때 — 어느 측도가 정직한가?
모든 자료를 더해서 개수로 나눈 값. 가장 자주 쓰이는 대푯값. 모든 자료의 정보를 포함한다.
✓ 모든 자료 활용 · 수학적 분석 용이 ✗ 이상치에 매우 민감$n$ 이 홀수: $(\tfrac{n+1}{2})$ 번째 값. $n$ 이 짝수: $\tfrac{n}{2}$ 와 $\tfrac{n}{2}+1$ 번째 두 값의 평균.
✓ 이상치에 강함 (robust) ✗ 모든 자료를 다 쓰지는 않음도수가 가장 많은 값. 범주형 자료 (혈액형, 좋아하는 색 등) 에 특히 유용.
✓ 범주형 자료에 사용 가능 ✗ 자료가 흩어지면 의미 없음| 상황 | 추천 대푯값 | 이유 |
|---|---|---|
| 대칭적 분포 | 평균 | 대표성 높고 계산 간단 |
| 이상치 있음 | 중앙값 | 평균은 이상치에 휘둘림 |
| 범주형 자료 | 최빈값 | 평균·중앙값 정의 불가 |
| 매우 비대칭 분포 (연봉, 집값 등) | 중앙값 | 대다수의 실제 모습 반영 |
| "가장 일반적인" 답을 원할 때 | 최빈값 | 가장 흔한 값을 직접 알려줌 |
실생활 예시 뉴스에서 "가구당 평균 자산"이 5억 원이라 한다면, 절반 이상의 가구는 5억 미만일 수도 있다 (부동산·금융 부자의 영향). 그래서 정부 통계청은 중앙값도 함께 발표한다. 통계의 진짜 모습을 보려면 두 수를 모두 봐야 한다.
$\bar{x} = \tfrac{1}{n}\sum x_i$. 모든 자료의 정보. 이상치에 민감.
정렬했을 때 한가운데. 이상치에 강함.
가장 자주 나타나는 값. 범주형 자료에 유용.
대칭 분포 → 평균, 이상치 있음 → 중앙값, 범주형 → 최빈값.
다음 단계 — Ⅵ-2.2 분산과 표준편차 자료의 중심이 어디인지 알게 되었으니, 이제 자료가 그 중심에서 얼마나 흩어졌는지를 측정한다. 같은 평균을 가진 두 자료가 전혀 다른 모습일 수 있다는 사실 — 분산이 답한다.