DA Study/Data Analytics

[통계] 피어슨 상관계수와 공분산

harrym8n 2024. 12. 28. 22:48
공분산 : 두 변수 간의 관계의 방향성과 강도를 측정할 때 사용할 수 있는 통계값
  • 수식상 하나의 변수가 증가할 때 다른 변수도 증가하는 경향이 있다면 공분산 값은 양수가 되고,
    하나의 변수가 증가할 때 다른 변수는 감소한다면 공분산 값은 음수
  • 공분산 값의 크기는 변수의 단위에 큰 영향을 받는다는 한계가 있음
    (ex. 두 변수의 단위가 무게(kg), 길이(km)일 경우 이 단위에 따라 공분산 값의 범위가 크게 달라짐)
    -> 공분산 값이 크게 나왔을 때, 정말로 상관관계가 커서 그런 건지, 변수의 단위 때문에 숫자가 커서 그런 건지 판단 불가
    -> 공분산 만으로는 상관관계 강도 비교 해석이 어려움
$$cov(X,Y) = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y}) }{n}$$

 

피어슨 상관계수 : 두 변수 X 와 Y 간의 선형 상관관계를 계량화한 수치
  • -1 부터 1 사의의 값을 가진다.
  • 상관계수가 1에 가까울수록 두 변수는 강한 양의 상관관계 / -1에 가까울수록 강한 음의 상관관계
  • 공분산을 각 변수의 표준 편차의 곱으로 나눠서, -1에서 1 사이의 값을 가지도록 만들어 변수의 스케일을 통일시켜 공분산의 한계를 극복(변수 단위에 관계없이 상관관계의 방향과 강도를 좀 더 객관적으로 비교)
$$\rho_X,_Y = \frac{cov(X,Y)}{\sigma _X\sigma _Y}$$