반응형
상관과 회귀
상관(Correlation)
- 두 변수가 얼마나 함께 움직이는지 숫자로 표현
- 상관은 방향 + 강도만 말해줌
- 상관이 있다고 해서 인관관계가 있다는건 아님!
- 상관계수 r의 범위 : −1 ≤ r ≤ 1
- r = 1 → 완벽한 양의 상관
- r = -1 → 완벽한 음의 상관
- r = 0 → 관계 없음
회귀(Regression)
- x로 y를 예측하는 공식 만들어 예측
- y=f(x)라는 함수를 통해 변수 사이의 관계를 공식화하는 것
- x = 설명변수(Explanatory Variable) 또는 독립변수
- y = 반응변수(Response Variable) 또는 종속변수
상관계수
피어슨 상관계수 r(Pearson’s Correlation Coefficient r)
- 두 변수의 ‘선형(linear) 관계’를 측정
- 두 연속형 변수 사이의 선형적 관계가 얼마나 직선 관계에 가까운가를 평가
- 원자료 값 그대로 사용하며 직선 관계에 민감
- 이상치에 매우 민감(극단 값이 많지 않을 때 사용)
- 변수들이 연속형이고 산점도가 직선 모양일 때 사용
- 두 변수가 얼마나 일관된 방향으로 함께 움직이는지를 -1과 +1 사이의 표준화된 점수로 나타낸 것

공분산
- x와 y가 평균 기준으로 같은 방향으로 움직이느냐? 같이 움직이면 +, 반대로 움직이면 - 이걸 전부 더해서 평균 낸 것
- (xi−xˉ)(yi−yˉ)
| x 상태 | y 상태 | 곱 |
|---|---|---|
| 둘 다 평균보다 큼 | (+)(+) | + |
| 둘 다 평균보다 작음 | (−)(−) | + |
| 하나는 크고 하나는 작음 | (+)(−) | − |
- 공분산 > 0 → x가 클 때 y도 큰 경우가 많다 (양의 관계)
- 공분산 < 0 → x가 클 때 y는 작은 경우가 많다 (음의 관계)
- 공분산 ≈ 0 → 관계가 일정하지 않다
상관계수 r의 부호
- 기호 : r , 범위 –1 ≤ r ≤ 1
- x가 평균보다 클 때 y도 같이 크냐(또는 작아지냐)를 방향 + 일관성으로 숫자화한 것
- 양의 상관(Positive Correlation) : 부호가 양일 때는 x가 커질수록 y도 함께 커지고, x가 작아질수록 y도 함께 작아진다.
- 음의 상관(Negative Correlation) : 부호가 음일 때는 x가 커질수록 y도 작아지고, x가 작아질수록 y는 커진다.
정규성 검사
- 평균이나 분산에 기반한 모수적인 방법이므로, x의 분포, y의 분포가 모두 정규분포라고 가정합니다.
- 데이터가 좌우로 찌그러지거나, 쌍봉형이거나, 데이터에 이상값이 있을 때에는 적절하지 않습니다.
- 상관계수를 계산하기 전에 x축 데이터와 y축 데이터 각각에 대해 정규성을 샤피로-월크 검정 등으로 확인하는 것이 좋습니다.비모수상관계수
스피어만 상관계수 (Spearman’s Rank Correlation Coefficient)
- 두 변수의 ‘순위(rank) 관계’를 측정
- 발음은 ‘로’
- 값 → 순위로 바꿔서 계산
- 데이터의 x축, y축 중 적어도 하나 이상에 정규성이 없을 때 사용
- 직선이 아니어도 단조(monotonic) 관계(x가 커질수록 y도 계속 커지거나 작아지는 관계)면 가능
- 이상치 영향 적음
켄달 순위상관계수 (Kendall’s Rank Correlation Coeeficient)
- 발음은 ‘타우’
- 스피어만 상관계수와 사용 대상은 거의 비슷하나, 표본크기 n이 매우 작을 때(10 미만) 사용
회귀분석(Regression Analysis)
- 한 변수로 다른 변수를 설명 및 예측하는 전체적인 분석 과정
- x가 y에 어떤 영향을 주는지 수식과 통계로 분석하는 방법
- 특정 평가 기준에 따라 회귀의 적합도를 평가하고, 이 회귀계수의 값을 구체적으로 구하는 것
단순선형회귀(Simple Linear Regression)
- 독립변수 1개, 종속변수 1개인 가장 기본 회귀
- 2차원 공간에서 표현이 되어지는 단순한 회귀 모델
- y=f(x)
- f(x)=a+bx
- y : 종속변수 (결과)
- x : 독립변수 (설명변수)
- a : 절편
- b : 기울기
- ε : 확률 오차
회귀계수(Regression Coefficient)
- 회귀식 f(x)의 형태를 결정하는 파라미터 a, b
- 기울기(b) : x가 1 증가할 때 y의 평균 변화량
- 절편(a) : x = 0일 때 y의 예측값
결정계수 R^2 (Coefficient of Determination, R-Squared)
- 회귀식이 잘 들어맞는지 평가하는 지표
- 회귀모형이 종속변수의 변동을 얼마나 설명하는지 나타내는 비율
결정계수의 값 범위
- 0 ≤ R^2 ≤ 1
- R^2 = 0 : 설명 거의 못 함
- R^2 = 1 : 완벽하게 설명 (현실에선 거의 없음)
오차(error) / 잔차(residual)
- 오차 : 실제값 − (이론적인) 참값
- 잔차 : 실제값 − 회귀식의 예측값
오차의 등분산성 (Homoscedasticity)
- 오차의 분산이 x 값에 상관없이 일정해야 한다는 가정
- 독립변수의 값이 달라져도 오차의 흩어짐 정도는 같아야 한다
- 등분산 : 회귀선 주변에 점들이 고르게 퍼짐
- 이분산 : x가 커질수록 점들이 점점 퍼지거나 부채꼴처럼 퍼짐 검정 결과를 신뢰할 수 없음
오차의 정규성 (Normality)
- 오차가 정규분포를 따른다는 가정
- 오차(잔차)의 분포가 평균 0을 중심으로 한 정규분포여야 한다
- x, y가 정규분포일 필요는 없고 오차만 정규분포면 된다
- 오차가 정규분포가 아닐 경우 검정 결과를 신뢰할 수 없음
'IT' 카테고리의 다른 글
| 통계학 기초 - 인과관계 vs 상관관계, 빈도주의 통계 vs 베이즈 통계 (1) | 2026.04.17 |
|---|---|
| 통계학 기초 - 회귀, 일반화 선형모형(GLM), 로지스틱스 회귀 (0) | 2026.04.16 |
| 통계학 기초 - 3 (0) | 2026.04.16 |
| 통계학 기초 - 2 (0) | 2026.04.15 |
| 통계학 기초 - 1 (0) | 2026.04.15 |