공분산 : 두 변수 간의 관계의 방향성과 강도를 측정할 때 사용할 수 있는 통계값
- 수식상 하나의 변수가 증가할 때 다른 변수도 증가하는 경향이 있다면 공분산 값은 양수가 되고,
하나의 변수가 증가할 때 다른 변수는 감소한다면 공분산 값은 음수 - 공분산 값의 크기는 변수의 단위에 큰 영향을 받는다는 한계가 있음
(ex. 두 변수의 단위가 무게(kg), 길이(km)일 경우 이 단위에 따라 공분산 값의 범위가 크게 달라짐)
-> 공분산 값이 크게 나왔을 때, 정말로 상관관계가 커서 그런 건지, 변수의 단위 때문에 숫자가 커서 그런 건지 판단 불가
-> 공분산 만으로는 상관관계 강도 비교 해석이 어려움
$$cov(X,Y) = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y}) }{n}$$
피어슨 상관계수 : 두 변수 X 와 Y 간의 선형 상관관계를 계량화한 수치
- -1 부터 1 사의의 값을 가진다.
- 상관계수가 1에 가까울수록 두 변수는 강한 양의 상관관계 / -1에 가까울수록 강한 음의 상관관계
- 공분산을 각 변수의 표준 편차의 곱으로 나눠서, -1에서 1 사이의 값을 가지도록 만들어 변수의 스케일을 통일시켜 공분산의 한계를 극복(변수 단위에 관계없이 상관관계의 방향과 강도를 좀 더 객관적으로 비교)
$$\rho_X,_Y = \frac{cov(X,Y)}{\sigma _X\sigma _Y}$$
'DA Study > Data Analytics' 카테고리의 다른 글
[통계] 통계 리터러시를 위한 기본 개념(정규분포, 오차, 표준오차, 신뢰구간) (1) | 2025.01.02 |
---|---|
[통계] 모집단, 표준편차, 분산, 평균, 확률, 확률분포, 이산확률변수, 연속확률변수, 확률밀도함수 (0) | 2024.12.30 |
[데이터 시각화] Matplotlib으로 데이터 시각화하기 (2) | 2024.12.17 |
[데이터 분석] 차원의 저주 , 차원 축소, PCA (0) | 2024.12.17 |
[데이터 분석] 클러스터링 모델들 - 덴드로그램(Dendrogram) / DBSCAN / GMM (0) | 2024.12.17 |