본문 바로가기
IT

통계학 기초 - 상관과 회귀, 상관계수, 비모수상관계수, 회귀 분석

by Dyudyu_Data 2026. 4. 16.
반응형

상관과 회귀

상관(Correlation)

  • 두 변수가 얼마나 함께 움직이는지 숫자로 표현
  • 상관은 방향 + 강도만 말해줌
  • 상관이 있다고 해서 인관관계가 있다는건 아님!
  • 상관계수 r의 범위 : −1 ≤ r ≤ 1
  • r = 1 → 완벽한 양의 상관
  • r = -1 → 완벽한 음의 상관
  • r = 0 → 관계 없음

회귀(Regression)

  • x로 y를 예측하는 공식 만들어 예측
  • y=f(x)라는 함수를 통해 변수 사이의 관계를 공식화하는 것
  • x = 설명변수(Explanatory Variable) 또는 독립변수
  • y = 반응변수(Response Variable) 또는 종속변수

상관계수

피어슨 상관계수 r(Pearson’s Correlation Coefficient r)

  • 두 변수의 ‘선형(linear) 관계’를 측정
  • 두 연속형 변수 사이의 선형적 관계가 얼마나 직선 관계에 가까운가를 평가
  • 원자료 값 그대로 사용하며 직선 관계에 민감
  • 이상치에 매우 민감(극단 값이 많지 않을 때 사용)
  • 변수들이 연속형이고 산점도가 직선 모양일 때 사용
  • 두 변수가 얼마나 일관된 방향으로 함께 움직이는지를 -1과 +1 사이의 표준화된 점수로 나타낸 것

공분산

  • x와 y가 평균 기준으로 같은 방향으로 움직이느냐? 같이 움직이면 +, 반대로 움직이면 - 이걸 전부 더해서 평균 낸 것
  • (xi−xˉ)(yi−yˉ)
x 상태 y 상태
둘 다 평균보다 큼 (+)(+) +
둘 다 평균보다 작음 (−)(−) +
하나는 크고 하나는 작음 (+)(−)
     
  • 공분산 > 0 → x가 클 때 y도 큰 경우가 많다 (양의 관계)
  • 공분산 < 0 → x가 클 때 y는 작은 경우가 많다 (음의 관계)
  • 공분산 ≈ 0 → 관계가 일정하지 않다

상관계수 r의 부호

  • 기호 : r , 범위 –1 ≤ r ≤ 1
  • x가 평균보다 클 때 y도 같이 크냐(또는 작아지냐)를 방향 + 일관성으로 숫자화한 것
  • 양의 상관(Positive Correlation) : 부호가 양일 때는 x가 커질수록 y도 함께 커지고, x가 작아질수록 y도 함께 작아진다.
  • 음의 상관(Negative Correlation) : 부호가 음일 때는 x가 커질수록 y도 작아지고, x가 작아질수록 y는 커진다.

정규성 검사

  • 평균이나 분산에 기반한 모수적인 방법이므로, x의 분포, y의 분포가 모두 정규분포라고 가정합니다.
  • 데이터가 좌우로 찌그러지거나, 쌍봉형이거나, 데이터에 이상값이 있을 때에는 적절하지 않습니다.
  • 상관계수를 계산하기 전에 x축 데이터와 y축 데이터 각각에 대해 정규성을 샤피로-월크 검정 등으로 확인하는 것이 좋습니다.비모수상관계수

스피어만 상관계수 (Spearman’s Rank Correlation Coefficient)

  • 두 변수의 ‘순위(rank) 관계’를 측정
  • 발음은 ‘로’
    • 값 → 순위로 바꿔서 계산
  • 데이터의 x축, y축 중 적어도 하나 이상에 정규성이 없을 때 사용
  • 직선이 아니어도 단조(monotonic) 관계(x가 커질수록 y도 계속 커지거나 작아지는 관계)면 가능
  • 이상치 영향 적음

켄달 순위상관계수  (Kendall’s Rank Correlation Coeeficient)

  • 발음은 ‘타우’
  • 스피어만 상관계수와 사용 대상은 거의 비슷하나, 표본크기 n이 매우 작을 때(10 미만) 사용

회귀분석(Regression Analysis)

  • 한 변수로 다른 변수를 설명 및 예측하는 전체적인 분석 과정
  • x가 y에 어떤 영향을 주는지 수식과 통계로 분석하는 방법
  • 특정 평가 기준에 따라 회귀의 적합도를 평가하고, 이 회귀계수의 값을 구체적으로 구하는 것

단순선형회귀(Simple Linear Regression)

  • 독립변수 1개, 종속변수 1개인 가장 기본 회귀
  • 2차원 공간에서 표현이 되어지는 단순한 회귀 모델
  • y=f(x)
  • f(x)=a+bx
  • y : 종속변수 (결과)
  • x : 독립변수 (설명변수)
  • a : 절편
  • b : 기울기
  • ε : 확률 오차

회귀계수(Regression Coefficient)

  • 회귀식 f(x)의 형태를 결정하는 파라미터 a, b
  • 기울기(b) : x가 1 증가할 때 y의 평균 변화량
  • 절편(a) : x = 0일 때 y의 예측값

결정계수 R^2 (Coefficient of Determination, R-Squared)

  • 회귀식이 잘 들어맞는지 평가하는 지표
  • 회귀모형이 종속변수의 변동을 얼마나 설명하는지 나타내는 비율

결정계수의 값 범위

  • 0 ≤ R^2 ≤ 1
  • R^2 = 0 : 설명 거의 못 함
  • R^2 = 1 : 완벽하게 설명 (현실에선 거의 없음)

오차(error) / 잔차(residual)

  • 오차 : 실제값 − (이론적인) 참값
  • 잔차 : 실제값 − 회귀식의 예측값

오차의 등분산성 (Homoscedasticity)

  • 오차의 분산이 x 값에 상관없이 일정해야 한다는 가정
  • 독립변수의 값이 달라져도 오차의 흩어짐 정도는 같아야 한다
  • 등분산 : 회귀선 주변에 점들이 고르게 퍼짐
  • 이분산 : x가 커질수록 점들이 점점 퍼지거나 부채꼴처럼 퍼짐 검정 결과를 신뢰할 수 없음

오차의 정규성 (Normality)

  • 오차가 정규분포를 따른다는 가정
  • 오차(잔차)의 분포가 평균 0을 중심으로 한 정규분포여야 한다
  • x, y가 정규분포일 필요는 없고 오차만 정규분포면 된다
  • 오차가 정규분포가 아닐 경우 검정 결과를 신뢰할 수 없음