키와 몸무게 · 공부 시간과 성적 · 자동차 무게와 연비. 두 변수가 짝지어 변할 때, 그 패턴을 한눈에 보여주는 것이 산점도. 그리고 그 패턴의 성격을 한 단어로 부르는 것이 — 상관관계다.
두 변수 $X, Y$ 의 측정값이 짝지어진 자료 $(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$ 를 좌표평면 위의 점으로 찍은 그래프. 점들의 배치를 보면 두 변수의 관계가 한눈에 보인다.
두 변수의 짝 $(x_i, y_i)$ 을 표로 정리한다.
$x$ 축에 한 변수 (보통 독립변수), $y$ 축에 다른 변수 (보통 종속변수). 적절한 눈금과 범위 결정.
각 자료 $(x_i, y_i)$ 를 좌표로 한 점을 찍는다.
점들의 전체적인 모양을 본다. 오르는가, 내리는가, 흩어지는가.
한 변수가 커질수록 다른 변수도 커지는 경향. 점들이 오른쪽 위로 올라가는 패턴.
예: 키와 몸무게, 공부 시간과 성적, 운동량과 근력.
한 변수가 커질수록 다른 변수는 작아지는 경향. 점들이 오른쪽 아래로 내려가는 패턴.
예: 자동차 무게와 연비, 운동량과 체중, 가격과 판매량.
두 변수 사이에 뚜렷한 관계 없음. 점들이 특별한 방향 없이 흩어져 있다.
예: 키와 시력, 신발 사이즈와 IQ, 혈액형과 수학 점수.
방향 (양·음·무) 외에 또 하나의 정보가 있다 — 강도. 점들이 직선에 얼마나 가까운가?
점들이 일직선 위에 거의 놓여 있다. 한 변수가 다른 변수를 거의 결정한다.
전반적 추세는 있지만 점들이 많이 흩어져 있다. 한 변수만으로 다른 변수를 예측하기 어렵다.
예고 — 상관계수 $r$ 고등학교에서는 상관관계의 강도를 한 수로 표현하는 상관계수 $r$ 을 배운다. $-1 \le r \le 1$. $r = +1$: 완벽한 양의 상관 · $r = 0$: 무상관 · $r = -1$: 완벽한 음의 상관. 그 절댓값이 클수록 강한 상관. 중학교에서는 시각적 판단으로 충분.
키가 클수록 일반적으로 몸무게도 무거움. 강한 양의 상관.
공부를 많이 할수록 점수가 높아지는 경향. 단, 효율도 중요.
운동량이 많을수록 근력이 강해짐.
차가 무거울수록 연비 (km/L) 가 낮음. 강한 음의 상관.
중·노년에 갈수록 시력이 약해지는 경향.
꾸준한 운동량이 많을수록 체지방률이 낮음.
키와 시력 사이에는 의미 있는 관계 없음.
관계 없음. 단, 성인과 아이를 섞으면 가짜 양의 상관이 나타날 수 있음.
전혀 무관. 미신적 연관성은 통계로 검증되지 않음.
| 학생 | 키 $x$ (cm) | 몸무게 $y$ (kg) |
|---|---|---|
| A | 150 | 45 |
| B | 155 | 50 |
| C | 160 | 52 |
| D | 165 | 58 |
| E | 170 | 62 |
관찰: 키가 클수록 몸무게도 무거운 경향. 점들이 거의 직선 위에 놓여 있다.
결론: 강한 양의 상관관계.
상관계수 $r$ (예고 학습) 을 슬라이더로 조절하여 산점도의 모양 변화를 관찰하라. $r = +1$ 에 가까울수록 점들이 직선 위에 모이고, $r = 0$ 에 가까울수록 흩어진다.
두 변수의 짝 $(x_i, y_i)$ 을 좌표평면에 점으로 찍은 그래프. 관계를 한눈에.
$x↑$ 일 때 $y↑$. 점이 오른쪽 위로 향함. 예: 키와 몸무게.
$x↑$ 일 때 $y↓$. 점이 오른쪽 아래로. 예: 차 무게와 연비.
점들이 직선에 가까울수록 강한 상관. 상관계수 $r \in [-1, 1]$ (고등 학습 예고).
다음 단계 — Ⅵ-2.4 상관관계의 해석 상관관계는 두 변수가 함께 변한다는 사실만 보여준다. 한쪽이 다른 쪽의 원인인지는 별도 질문 — "상관관계 ≠ 인과관계" 라는 통계학의 가장 깊은 교훈을 다음 차시에서 본격적으로 다룬다.