"Data is a precious thing — it lasts longer than the systems themselves." — Tim Berners-Lee
어지러운 숫자에 질서를 부여하는 네 가지 도구: 줄기와 잎 그림·도수분포표·히스토그램·도수분포다각형.
"30명 학급의 키 데이터, 한 도시의 한 달 강수량, 학교 매점의 일주일 매출 — 이런 자료를 표·그림으로 정리하면 어떤 패턴이 보일까?"
통계의 출발점은 단순합니다 — 흩어진 자료에 질서를 부여하는 것. 단지 숫자를 모아 두기만 해서는 아무것도 보이지 않습니다. 그러나 이 숫자들을 줄기와 잎으로 나누어 늘어놓거나, 일정한 구간으로 묶어 도수분포표로 정리하거나, 막대로 그려 히스토그램으로 시각화하면 — 자료가 비로소 말을 시작합니다.
이 단원에서는 자료를 정리하는 네 가지 도구를 차례로 익힙니다. 각 도구는 같은 자료를 다른 각도에서 비춰 줍니다.
스코틀랜드의 공학자이자 정치경제학자 윌리엄 플레이페어는 1786년 The Commercial and Political Atlas에서 사상 최초의 막대그래프와 꺾은선그래프를 발표했습니다. 1801년에는 원그래프까지 만들어 우리가 오늘날 사용하는 통계 그래프의 거의 모든 형태를 그 혼자서 발명한 셈입니다. "한 장의 그림이 천 마디 말보다 낫다"는 격언의 진정한 시작점입니다.
정보 손실 없는 줄기와 잎 그림에서 압축된 히스토그램까지 차례로.
자료의 모든 값을 그대로 보존하는 가장 단순한 그림.
계급으로 묶어 자료를 압축하는 표 — 계급, 도수, 계급값.
도수분포표를 막대 그래프로 — 시각의 힘.
히스토그램의 막대 위 끝을 잇는 꺾은선. 분포의 흐름이 보임.
12문제로 자료 정리의 네 가지 도구를 점검합니다.
실제 자료를 수집·정리·해석하는 6단계 프로젝트.