시험 점수 한 무더기 · 학생 키의 분포 · 어느 도시의 한 달 기온. 측정값은 어지럽다. 그러나 대표 숫자 한 줄과 퍼짐의 정도를 알면 그 어지러움이 손에 잡힌다. 두 변수가 함께 변한다면 — 그 관계도 한 숫자로 요약된다. 통계학은 다양성에서 의미를 추출하는 기술.
모든 점수를 일일이 살펴볼 수도 있다. 하지만 우리는 요약을 원한다 — 평균은 얼마인가, 잘 흩어져 있는가 혹은 모여 있는가, 다른 반과 비교했을 때 어떤가. 이 세 질문이 통계학의 출발점이다.
통계학은 다양성을 요약하는 기술이다. 데이터의 중심 (대푯값) · 퍼짐 (산포도) · 관계 (상관관계). 이 세 축으로 우리는 어떤 자료든 해석할 수 있다.
이번 중단원의 흐름: ① 대푯값 (Ⅵ-2.1) → ② 분산과 표준편차 (Ⅵ-2.2) → ③ 산점도와 상관관계 (Ⅵ-2.3) → ④ 상관관계의 해석 (Ⅵ-2.4).
자료를 대표하는 단 하나의 숫자. 평균은 모든 자료를 균등 분배한 값, 중앙값은 정렬했을 때 한가운데 값, 최빈값은 가장 자주 나타나는 값.
이상치 (outlier) 가 있을 때 — 평균은 휘둘리지만 중앙값은 흔들리지 않는다.
같은 평균을 가진 두 자료도 퍼짐이 전혀 다를 수 있다. 한 반은 모두 70~80점, 다른 반은 30~100점. 평균은 같지만 학생들의 양상은 천차만별.
편차의 평균이 0이 되므로 — 제곱한 다음 평균을 내고, 다시 제곱근을 취한다.
두 변수 사이의 관계를 시각화하는 첫 단계. 점들이 직선에 가깝다면 강한 관계, 흩어져 있다면 약한 관계 혹은 무관계.
오르는 패턴 = 양의 상관, 내리는 패턴 = 음의 상관, 무패턴 = 무상관.
두 변수가 함께 변한다고 해서 한쪽이 다른 쪽의 원인이라 결론지을 수 없다. 아이스크림 판매가 늘면 익사사고도 늘어난다 — 원인은 양쪽 모두 "여름".
통계가 보여주는 것은 "함께 변한다"는 사실. 원인-결과는 실험과 추론으로 별도 검증.
이 한 줄이 통계학의 가장 깊은 교훈. 의학·사회학·경제학 어디서나 같다.
프랑스 수학자 Blaise Pascal 과 Pierre de Fermat 의 서신 교환. 두 도박꾼이 게임을 중단할 때 판돈을 어떻게 나눠야 하는가? 이 질문이 확률론의 토대를 마련. 통계학의 출발점.
스위스 수학자. 『추측술(Ars Conjectandi)』에서 표본이 커질수록 표본평균이 실제 평균에 수렴한다는 큰 수의 법칙을 증명. "데이터가 많아지면 진실에 가까워진다"의 수학적 보증.
독일 수학자. 천체 관측의 오차가 종 모양 곡선 (Gaussian, 정규분포) 을 따른다는 사실을 발견. 평균·분산·표준편차의 현대적 정착에 결정적 기여. 오늘날 거의 모든 통계 모델의 출발.
영국 인류학자. 키 큰 부모의 자식이 평균에 가까워지는 현상 ("평균으로의 회귀") 을 관찰. 회귀 분석의 개념적 출발. 또한 산점도를 처음으로 도입.
Galton의 제자. 두 변수의 관계 강도를 $-1$ 과 $+1$ 사이의 한 수로 요약하는 피어슨 상관계수를 정립. $+1$ = 완벽한 양의 상관, $0$ = 무관, $-1$ = 완벽한 음의 상관. 현대 통계학의 표준 도구.
영국 통계학자. 『연구원을 위한 통계적 방법』으로 분산 분석 (ANOVA) · 실험 설계 · 가설 검정을 정립. 의학·농학·심리학에 통계학을 침투시킨 결정적 인물. 현대 과학적 방법의 기둥.
컴퓨터의 등장으로 통계학은 폭발적으로 확장. 수억 건의 데이터를 분석하는 빅데이터, 데이터로부터 패턴을 학습하는 머신러닝, 그리고 GPT 같은 거대 언어모델까지 — 모두 통계학의 직계 후손.
신약의 효과는 통계적 검정으로 입증. 무작위 임상시험 (RCT) 의 기본 도구.
야구의 OPS·WAR, 축구의 xG, 농구의 효율 지표 — 모든 현대 스포츠 통계는 산점도와 회귀의 후예.
과거 데이터의 평균과 분산으로 내일의 기온 확률 분포를 예측. 정규분포의 직접 응용.
공장의 표준편차 관리도 — Six Sigma. 제품 불량률을 통계로 통제.
1500명만 조사해도 5000만 국민의 의견을 추정. 표본추출 이론의 위력.
모든 머신러닝의 손실 함수는 평균 제곱 오차 (MSE) — 분산의 직계 후손. 통계는 AI의 모국어.
대푯값 — 자료의 중심을 잡는 가장 기본적인 도구. 평균·중앙값·최빈값 셋 중 어느 것이 가장 정직한가?