Ⅵ-2.4 ★ 통계학의 가장 깊은 교훈 9수05-07 2022 개정 교육과정

상관관계는 인과관계
아니다 — 통계의 함정 피하기

두 변수가 함께 변한다는 것을 발견했다. 그것만으로 한쪽이 원인이라 말할 수 있는가? 아니다. 잠복변수 · 역인과 · 우연한 일치 · 표본 편향 — 통계 해석을 망치는 네 가지 함정이 있다. 이 교훈을 모르면 데이터에 속는다.

01여름과 익사 사고

A famous statistical trap
"도시의 아이스크림 판매량이 늘어나면
익사 사고도 함께 늘어난다."

이 사실은 통계적으로 분명하다. 강한 양의 상관관계. 그렇다면 — 아이스크림이 익사의 원인인가? 아이스크림을 금지하면 익사 사고가 줄어드는가? 당연히 아니다.

진짜 원인은 둘 다 — "여름"이라는 제 3의 변수다. 여름에 사람들이 아이스크림을 더 사 먹고, 여름에 더 많이 수영을 한다. 두 변수는 함께 변하지만, 그 사이에 인과관계는 없다.

이 단순한 사례가 통계학의 가장 중요한 교훈을 담고 있다.

02한 줄로

The mantra

"Correlation does not imply causation."

상관관계는 인과관계를 함의하지 않는다.

두 변수 A, B가 함께 변한다 (correlation) 는 사실은 — A가 B의 원인 (causation) 이라는 결론을 자동으로 보장하지 않는다.

03네 가지 함정 — 왜 상관 ≠ 인과인가

Four reasons
함정 ① · 잠복변수

제3의 변수가 양쪽을 움직인다 (Lurking Variable)

관찰된 두 변수 A, B를 모두 변화시키는 제3의 숨은 변수 C 가 있다. A와 B 사이에는 인과관계가 없지만, C 때문에 함께 변한다.

예: 아이스크림(A) — 익사사고(B) — 여름(C).
A와 B는 C의 결과일 뿐.
함정 ② · 역인과

인과의 방향이 반대 (Reverse Causation)

"A가 B의 원인이다"라고 본 것이 사실은 "B가 A의 원인이다"인 경우. 인과의 방향을 거꾸로 추론하는 오류.

예: "병원이 많은 도시일수록 환자가 많다" — 병원이 환자를 만든 게 아니라, 환자가 많은 곳에 병원이 들어선다.
함정 ③ · 우연한 일치

그저 우연 (Spurious / Coincidental)

전혀 무관한 두 변수가 단지 같은 시기에 같이 변하는 경향을 보였을 뿐. 인과·잠복도 없는 순전한 우연.

예: 미국에서 마가린 소비량과 메인주 이혼율이 모두 감소한 시기. 두 사실은 무관하지만 그래프는 비슷.
함정 ④ · 표본 편향

자료가 한쪽으로 치우침 (Selection Bias)

측정한 표본이 전체 모집단을 대표하지 못한 채로 추출되어 — 자료의 상관관계가 인위적으로 만들어진 경우.

예: 병원에서 만난 사람들만 조사하여 "휴식이 건강에 나쁘다"고 결론. 병원에 있는 사람들은 이미 아픈 사람들.

04실생활 사례 모음

Real-world case studies
잠복변수

아이스크림 vs 익사

"아이스크림 판매와 익사 사고는 함께 증가한다."
진짜 원인은 여름. 더운 날씨가 두 변수 모두를 끌어올린다.
잠복변수

신발 사이즈 vs 독해력

"초·중·고 학생을 합쳐 보면 신발 사이즈가 클수록 독해력이 높다."
진짜 원인은 나이/학년. 큰 신발도, 높은 독해력도 모두 나이의 결과.
역인과

의사 수 vs 환자 수

"의사가 많은 도시일수록 환자가 많다."
방향이 반대. 환자가 많은 곳에 의사가 배치된다 — 의사가 환자를 만든 게 아니다.
역인과

화재 규모 vs 소방관 수

"화재 현장에 소방관이 많을수록 피해 규모가 크다."
방향 반대. 큰 화재일수록 더 많은 소방관이 출동 — 소방관이 피해를 만들지 않는다.
우연

마가린 vs 이혼율

"2000년대 미국 1인당 마가린 소비와 메인주 이혼율은 모두 감소했다 — 상관계수 $0.99$."
전혀 무관한 두 사실이 우연히 같은 시기에 변했을 뿐. 통계학에서 가장 유명한 "spurious correlation" 사례.
표본 편향

비행기와 생존율

"전쟁 중 귀환한 비행기의 총탄 자국은 날개에 집중되어 있다 — 그래서 날개를 더 두껍게 만들자."
잘못된 결론. 귀환한 비행기는 날개에 맞고도 살아온 것. 추락한 비행기는 다른 부분에 맞아 못 돌아왔다. 보강해야 할 곳은 총탄 자국이 없는 부분.

05올바른 해석을 위한 체크리스트

How to interpret correctly

상관관계를 만났을 때 — 던질 다섯 질문

  1. ① 이 두 변수 모두에 영향을 주는 제3의 변수가 있을 수 있는가?

    여름, 나이, 소득, 교육 수준 등의 잠복변수를 의심하라.

  2. 인과의 방향이 반대일 수는 없는가?

    "A → B"라고 본 게 사실 "B → A"일 가능성을 검토하라.

  3. ③ 단순한 우연일 가능성은?

    특히 시계열 자료에서는 무관한 두 추세가 비슷하게 보일 수 있다. 큰 표본·반복 검증이 필요.

  4. ④ 표본은 전체를 대표하는가?

    특정 집단에서만 자료를 뽑았는지, 추출 과정에서 편향이 있는지 확인.

  5. 무작위 대조 실험 (RCT) 으로 검증된 적이 있는가?

    인과관계는 관찰만으로는 증명 어려움. 실험적으로 한 변수를 조작하여 다른 변수의 변화를 관찰하는 것이 인과 검증의 표준.

의학·과학의 표준: 흡연과 폐암의 인과관계는 1950년대 이후 수십 년에 걸친 대규모 코호트 연구·동물 실험·생물학적 기전 연구를 통해 정립되었다. 단순한 상관관계 하나로는 결코 결정되지 않았다.

06실험실 — 함정 판별 퀴즈

Interactive trap detection

다음 시나리오는 어떤 함정에 해당하는가?

"여름이 되면 아이스크림 판매와 익사 사고가 동시에 증가한다. 그러므로 아이스크림이 익사를 유발한다."

잠복변수
역인과
우연한 일치
표본 편향

07개념 점검 5문항

Quick check
QC 01
두 변수 사이에 강한 상관관계가 있으면 한쪽이 다른 쪽의 원인이라 결론지을 수 있는가?
정답 보기
아니오. 상관관계 ≠ 인과관계. 잠복변수·역인과·우연·편향 등의 가능성을 모두 배제해야 한다.
QC 02
"아이스크림 판매와 익사 사고가 둘 다 증가한다" — 진짜 원인은?
정답 보기
여름 (잠복변수). 더운 날씨가 두 변수 모두를 끌어올린다.
QC 03
"이 도시는 의사 수가 많을수록 환자가 많다" — 어떻게 해석할까?
정답 보기
역인과. 의사가 환자를 만든 게 아니라, 환자가 많은 곳에 의사가 배치됨.
QC 04
"신발 사이즈와 독해력은 양의 상관" — 잠복변수는?
정답 보기
나이 (또는 학년). 두 변수 모두 나이의 결과.
QC 05
상관관계가 인과관계임을 증명하려면 어떤 추가 검증이 필요한가?
정답 보기
무작위 대조 실험 (RCT). 한 변수를 인위적으로 조작했을 때 다른 변수가 어떻게 변하는지 관찰. 의학·생물·심리학의 황금 기준.

08예제 2선

Worked examples
예제 1 · 잠복변수 찾기

한 연구가 "도서관에 가까이 사는 사람들이 더 오래 산다"는 결과를 발표했다. 이 결과의 해석으로 가장 적절한 것은?

표면적 결론 · "도서관 근처에 살면 수명이 늘어난다" — 직접 인과로 해석하면.
의심해 볼 점 · 도서관 근처에 사는 것이 정말 수명을 늘릴까? 직접적 메커니즘이 없어 보임.
잠복변수 후보 · 도시 환경 / 소득 / 교육 수준. 도서관은 일반적으로 잘 정비된 도시 중심에 위치 — 그런 지역의 거주민은 평균적으로 더 부유하고 교육 수준이 높으며 의료 접근성도 좋다.
결론 · 도서관 근접성과 수명 사이에 직접적 인과관계가 있다고 보기 어렵다. 도시 인프라·소득이 두 변수를 모두 끌어올리는 잠복변수일 가능성이 높다.
잠복변수 (도시 인프라·소득) 의 영향
예제 2 · 표본 편향 알아채기

한 학자가 "정시 졸업한 학생들에게 물어 보니 모두 시험을 통과했다. 따라서 시험은 누구나 합격할 수 있다"고 주장한다. 이 추론의 문제점은?

표본의 정체 · 정시 졸업한 학생만 조사. 그들은 모두 시험을 통과한 사람들 (당연히).
누락된 사람들 · 시험에 떨어진 학생들은 졸업하지 못했으므로 조사 대상에 포함되지 않음.
편향의 종류 · 표본 편향 (selection bias). 특히 "생존자 편향 (survivorship bias)"의 전형.
올바른 결론 · 합격률을 알려면 시험을 친 모든 학생들의 자료가 필요. 합격자만 보면 100% 합격률로 보이는 착시.
표본 편향 (생존자 편향) 의 오류

09연습 8문항

Practice · ★ basic / ★★ standard / ★★★ challenge
P01
두 변수가 함께 변한다는 사실만으로 한쪽이 원인이라 결론지을 수 있는가? (예/아니오)
풀이 보기
상관관계 ≠ 인과관계. 잠복변수·역인과·우연·편향의 가능성을 배제해야 함. 아니오.
P02
"아이스크림 판매와 익사 사고가 함께 증가" — 진짜 원인은?
풀이 보기
두 변수 모두 여름이라는 잠복변수의 결과. 아이스크림이 익사를 일으키는 게 아니다.
P03
상관관계와 인과관계는 같은 개념인가? (예/아니오)
풀이 보기
아니오. 상관관계는 함께 변한다는 사실, 인과관계는 한쪽이 다른 쪽의 원인. 둘은 별개.
P04★★
"학원 수가 많은 동네일수록 평균 학업 성적이 높다." 어떤 함정의 예일 가능성이 가장 높은가? (잠복변수 / 역인과 / 우연 / 표본 편향)
풀이 보기
잠복변수가 가장 유력. 부모 소득·교육 수준이 학원 수와 학업 성적을 모두 끌어올림. 다만 역인과 (성적 높은 곳에 학원이 들어옴) 도 일부 작용 가능.
P05★★
"지난 10년간 미국의 마가린 소비량과 메인주 이혼율이 모두 감소했다" — 어떤 종류의 상관관계?
풀이 보기
두 변수 사이에는 어떤 연결도 없음. 무관한 시계열이 우연히 같은 방향으로 변했을 뿐. 우연한 일치 (spurious).
P06★★
"화재 규모가 클수록 출동한 소방관 수가 많다" — 어떤 함정?
풀이 보기
큰 화재가 더 많은 소방관을 끌어옴. 소방관이 화재를 키운 게 아님. 역인과 (reverse causation).
P07★★★
상관관계가 인과관계임을 보이려면 어떤 추가 검증이 가장 강력한가?
풀이 보기
무작위 대조 실험 (Randomized Controlled Trial, RCT). 두 집단을 무작위로 나눠 한 집단에만 처치를 가하고 결과를 비교 — 잠복변수와 역인과를 동시에 통제할 수 있는 최강의 도구.
P08★★★
2차 세계대전 중, 귀환한 비행기의 총탄 자국 분포를 보고 "총탄이 많이 박힌 부분을 보강하자"는 제안이 나왔다. 통계학자 Abraham Wald는 정반대로 "총탄이 없는 부분을 보강해야 한다"고 주장했다. 이는 어떤 함정에 대한 통찰인가?
풀이 보기
귀환한 비행기는 그 부분에 맞고도 살아온 것. 추락한 비행기는 다른 부분에 맞아 못 돌아왔으므로 데이터에서 제외됨. 표본이 "살아남은 자"에 편향. 생존자 편향 (Survivorship Bias). 통계 역사에서 가장 유명한 일화.

10한 줄로 정리

Synthesis

한 줄

"상관관계 ≠ 인과관계". 함께 변한다는 사실은 한쪽이 원인이라는 증명이 아님.

네 함정

잠복변수 · 역인과 · 우연한 일치 · 표본 편향. 모두 가짜 인과를 만든다.

다섯 질문

제3변수? 방향 반대? 우연? 표본 편향? 실험 검증?

인과 검증

무작위 대조 실험 (RCT) 이 황금 기준. 의학·심리·사회과학의 표준.

중단원 완성  Ⅵ-2.1 (대푯값) → 2.2 (분산·표준편차) → 2.3 (산점도·상관관계) → 2.4 (해석) 까지 통계의 네 핵심 도구를 손에 넣었다. 다음은 Ⅵ-2.5 중단원 점검과 Ⅵ-2.6 수행과제로 종합 응용.