본문 바로가기

IT

통계학 기초 - 인과관계 vs 상관관계, 빈도주의 통계 vs 베이즈 통계

by Dyudyu_Data 2026. 4. 17.

p-해킹(p-hacking)

의도하든, 의도하지 않든 p값을 원하는 방향으로(유의수준 𝛼가 0.05 미만이 되도록) 조작하는 행위
데이터를 본 뒤 분석·수집·보고 방식을 여러 번 바꿔가며, 유의수준 𝛼가 0.05 미만이 될 때까지 시도하고 그중 성공한 결과만 보고하는 행위(또는 관행)
유의한 결과를 얻기 위한 분석·설계·보고상의 모든 조작적 관행을 포괄하는 넓은 개념

HARKing(Hypothesis After the Results are Known)

데이터를 얻어 결과를 보고 나서 가설을 만드는 행위
결과를 먼저 본 다음에, 그 결과에 맞게 ‘처음부터 이 가설을 세운 것처럼’ 서술하는 행위

p-해킹(p-hacking)과 HARKing은 같이 일어나는 경우가 많음

구분	p-해킹	HARKing
핵심 문제	유의한 결과를 만들어냄	결과의 출처를 숨김
언제 발생	분석 과정	보고/해석 과정
특징	여러 분석 시도	가설의 시간 왜곡
공통점	1종 오류 증가	재현성 저하

인과관계와 상관관계

변수 사이의 관계 → 상관 관계, 인과 관계

인과관계(Causation)

A가 B의 원인이다라는 관계
원인과 결과의 관계 (방향성 존재)
인과관계를 알면 원인 변수를 변화시킴으로써(개입), 결과 변수를 바꿀 수 있다.

상관관계(Correlation)

두 변수가 함께 움직이는 경향이 있다
관련성(Association)
A가 커질수록 B도 커지는 경향 → 양(+)의 상관
A가 커질수록 B는 작아지는 경향 → 음(-)의 상관
상관관계는 2개 변수 X, Y 사이의 관련성이므로, 한쪽 변수로부터 또 다른 변수를 예측할 수 있다.

허위상관(Spurious Correlation)

인과관계는 없지만 상관관계는 있을 때
인과관계가 있는 것처럼 보이는 상관

다중공선성(multicollinearity)이란?

독립변수들(X) 사이에 선형관계(한 변수가 다른 변수들의 조합으로 표현됨)가 생기는 상태 → 회귀가 어떤 계수를 얼마나 줘야 하는지 결정을 못하고 계수 추정이 불안정해지고 해석이 흔들릴 수 있음
독립변수들(X) 중 하나가 다른 독립변수들의 조합으로 완벽하게 설명될 수 있는 상태를 말함 이 경우, 모델은 각 변수의 순수한 영향력을 개별적으로 계산할 수 없게 되어 오류가 발생함
pd.get_dummies() 더미 변수를 활용할 때 drop_first=True 옵션을 사용하여 기준이 될 더미 변수 하나를 처음부터 제거해서 위 문제를 해결함 해당 옵션을 사용하면 제일 첫번째 변수가 기준이 됨

완전 다중공선성 (Perfect)

어떤 변수가 다른 변수들의 조합으로 정확히 표현됨
회귀가 원리적으로 불가능하거나 에러/자동제거 발생
더미를 전부 넣었을 때가 대표적
drop_first=True가 해결

약한/높은 다중공선성 (Imperfect)

완벽하진 않지만, 변수들이 서로 강하게 연관됨
회귀는 되지만
- 표준오차 커짐
- p-value 커짐
- 계수 불안정해짐
drop_first=True를 해도 이런 “약한 다중공선성”은 생길 수 있음

다중공선성이 있으면 아래 증상들이 생김

R²는 높은데 개별 변수 p-value가 이상하게 큼
계수 부호가 직관과 다르게 뒤집히기도 함
표준오차가 커짐(신뢰구간 넓어짐)
데이터 조금만 바뀌어도 계수가 크게 흔들림

상수항(절편) 추가

X_const = sm.add_constant(X)

우리가 직접 X 데이터에 1로 꽉 찬 열을 추가함 → 회귀식의 y절편(b)을 계산하기 위해
상수항이 없으면 모든 X가 0이면 y도 0이어야 한다는 강제 조건이 걸리기 때문에 현실 데이터에선 이게 말이 안 되는 경우가 많아서 계수들이 왜곡될 수 있음

빈도주의 통계(Frequentist Statstics) vs 베이즈 통계 (Bayesian Statistics)

빈도주의

모집단에서 추출할 때의 불확실성
고정된 파라미터 θ를 가진 확률분포(모집단)을 상정
빈도주의에서의 확률은 무한히 반복 실행한 결과로서의 객관적인 빈도

베이즈

확률을 ‘얼마나 확신하는지’
모집단분포를 모형화할 때, 분석자가 그 파라미터 $\theta$를 어느 정도 알고 있는지를 확률분포로 나타냄

베이즈 정리

새로운 정보를 얻었을 때, 내 생각(확률)을 어떻게 업데이트할지 알려주는 공식
원래 이렇게 생각했는데, 이 증거를 보고 나니 생각을 이렇게 바꿔야겠네?
베이즈 정리 공식(기본형)

사전 확률 (Prior) - P(A)

처음에 내가 얼마나 그렇게 믿고 있었는지
증거 보기 전 원래 A라고 생각했던 확률

가능도 (Likelihood) - P(B∣A)

그 가설이 맞을 때, 지금 이 증거가 나올 가능성
A라면 이런 증거(B)가 얼마나 잘 나오냐?

증거 (Evidence) - P(B)

증거가 나올 전체 확률
B가 나오는 전체 확률 (정규화/보정용)
A일 때도 B가 나오고, A가 아닐 때도 B가 나올 수 있음

사후 확률 (Posterior) - P(A∣B)

증거를 보고 나서 새로 업데이트된 확률
B를 보고 나서 A라고 믿는 정도

'IT' 카테고리의 다른 글

데이터 전처리와 시각화 - 파이썬 판다스 (0)	2026.04.18
통계학 기초 - AI 머신러닝, 의사 결정 나무 (Decision Tree), 랜덤 포레스트 (Random Forest), K-최근접 이웃 (K-Nearest Neighbor, KNN) (1)	2026.04.17
통계학 기초 - 회귀, 일반화 선형모형(GLM), 로지스틱스 회귀 (0)	2026.04.16
통계학 기초 - 상관과 회귀, 상관계수, 비모수상관계수, 회귀 분석 (0)	2026.04.16
통계학 기초 - 3 (0)	2026.04.16

티스토리툴바