본문 바로가기

IT

통계학 기초 - 상관과 회귀, 상관계수, 비모수상관계수, 회귀 분석

by Dyudyu_Data 2026. 4. 16.

상관과 회귀

상관(Correlation)

두 변수가 얼마나 함께 움직이는지 숫자로 표현
상관은 방향 + 강도만 말해줌
상관이 있다고 해서 인관관계가 있다는건 아님!
상관계수 r의 범위 : −1 ≤ r ≤ 1
r = 1 → 완벽한 양의 상관
r = -1 → 완벽한 음의 상관
r = 0 → 관계 없음

회귀(Regression)

x로 y를 예측하는 공식 만들어 예측
y=f(x)라는 함수를 통해 변수 사이의 관계를 공식화하는 것
x = 설명변수(Explanatory Variable) 또는 독립변수
y = 반응변수(Response Variable) 또는 종속변수

상관계수

피어슨 상관계수 r(Pearson’s Correlation Coefficient r)

두 변수의 ‘선형(linear) 관계’를 측정
두 연속형 변수 사이의 선형적 관계가 얼마나 직선 관계에 가까운가를 평가
원자료 값 그대로 사용하며 직선 관계에 민감
이상치에 매우 민감(극단 값이 많지 않을 때 사용)
변수들이 연속형이고 산점도가 직선 모양일 때 사용
두 변수가 얼마나 일관된 방향으로 함께 움직이는지를 -1과 +1 사이의 표준화된 점수로 나타낸 것

공분산

x와 y가 평균 기준으로 같은 방향으로 움직이느냐? 같이 움직이면 +, 반대로 움직이면 - 이걸 전부 더해서 평균 낸 것
(xi−xˉ)(yi−yˉ)

x 상태	y 상태	곱
둘 다 평균보다 큼	(+)(+)	+
둘 다 평균보다 작음	(−)(−)	+
하나는 크고 하나는 작음	(+)(−)	−

공분산 > 0 → x가 클 때 y도 큰 경우가 많다 (양의 관계)
공분산 < 0 → x가 클 때 y는 작은 경우가 많다 (음의 관계)
공분산 ≈ 0 → 관계가 일정하지 않다

상관계수 r의 부호

기호 : r , 범위 –1 ≤ r ≤ 1
x가 평균보다 클 때 y도 같이 크냐(또는 작아지냐)를 방향 + 일관성으로 숫자화한 것
양의 상관(Positive Correlation) : 부호가 양일 때는 x가 커질수록 y도 함께 커지고, x가 작아질수록 y도 함께 작아진다.
음의 상관(Negative Correlation) : 부호가 음일 때는 x가 커질수록 y도 작아지고, x가 작아질수록 y는 커진다.

정규성 검사

평균이나 분산에 기반한 모수적인 방법이므로, x의 분포, y의 분포가 모두 정규분포라고 가정합니다.
데이터가 좌우로 찌그러지거나, 쌍봉형이거나, 데이터에 이상값이 있을 때에는 적절하지 않습니다.
상관계수를 계산하기 전에 x축 데이터와 y축 데이터 각각에 대해 정규성을 샤피로-월크 검정 등으로 확인하는 것이 좋습니다.비모수상관계수

스피어만 상관계수 (Spearman’s Rank Correlation Coefficient)

두 변수의 ‘순위(rank) 관계’를 측정
발음은 ‘로’
- 값 → 순위로 바꿔서 계산
데이터의 x축, y축 중 적어도 하나 이상에 정규성이 없을 때 사용
직선이 아니어도 단조(monotonic) 관계(x가 커질수록 y도 계속 커지거나 작아지는 관계)면 가능
이상치 영향 적음

켄달 순위상관계수 (Kendall’s Rank Correlation Coeeficient)

발음은 ‘타우’
스피어만 상관계수와 사용 대상은 거의 비슷하나, 표본크기 n이 매우 작을 때(10 미만) 사용

회귀분석(Regression Analysis)

한 변수로 다른 변수를 설명 및 예측하는 전체적인 분석 과정
x가 y에 어떤 영향을 주는지 수식과 통계로 분석하는 방법
특정 평가 기준에 따라 회귀의 적합도를 평가하고, 이 회귀계수의 값을 구체적으로 구하는 것

단순선형회귀(Simple Linear Regression)

독립변수 1개, 종속변수 1개인 가장 기본 회귀
2차원 공간에서 표현이 되어지는 단순한 회귀 모델
y=f(x)
f(x)=a+bx
y : 종속변수 (결과)
x : 독립변수 (설명변수)
a : 절편
b : 기울기
ε : 확률 오차

회귀계수(Regression Coefficient)

회귀식 f(x)의 형태를 결정하는 파라미터 a, b
기울기(b) : x가 1 증가할 때 y의 평균 변화량
절편(a) : x = 0일 때 y의 예측값

결정계수 R^2 (Coefficient of Determination, R-Squared)

회귀식이 잘 들어맞는지 평가하는 지표
회귀모형이 종속변수의 변동을 얼마나 설명하는지 나타내는 비율

결정계수의 값 범위

0 ≤ R^2 ≤ 1
R^2 = 0 : 설명 거의 못 함
R^2 = 1 : 완벽하게 설명 (현실에선 거의 없음)

오차(error) / 잔차(residual)

오차 : 실제값 − (이론적인) 참값
잔차 : 실제값 − 회귀식의 예측값

오차의 등분산성 (Homoscedasticity)

오차의 분산이 x 값에 상관없이 일정해야 한다는 가정
독립변수의 값이 달라져도 오차의 흩어짐 정도는 같아야 한다
등분산 : 회귀선 주변에 점들이 고르게 퍼짐
이분산 : x가 커질수록 점들이 점점 퍼지거나 부채꼴처럼 퍼짐 검정 결과를 신뢰할 수 없음

오차의 정규성 (Normality)

오차가 정규분포를 따른다는 가정
오차(잔차)의 분포가 평균 0을 중심으로 한 정규분포여야 한다
x, y가 정규분포일 필요는 없고 오차만 정규분포면 된다
오차가 정규분포가 아닐 경우 검정 결과를 신뢰할 수 없음

'IT' 카테고리의 다른 글

통계학 기초 - 인과관계 vs 상관관계, 빈도주의 통계 vs 베이즈 통계 (1)	2026.04.17
통계학 기초 - 회귀, 일반화 선형모형(GLM), 로지스틱스 회귀 (0)	2026.04.16
통계학 기초 - 3 (0)	2026.04.16
통계학 기초 - 2 (0)	2026.04.15
통계학 기초 - 1 (0)	2026.04.15

티스토리툴바