DA Study/Weekly Paper

[Weekly Paper 4] 데이터 전처리 방법(결측치, 이상치 처리 / 범주형 변수 처리)과 T-TEST

harrym8n 2024. 12. 17. 16:45

데이터 전처리 방법

정의

데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭

종류

1) 범주형 변수 처리 - 원 핫 인코딩

  • 카테고리별 이진 특성을 만들어 해당 특성을 1, 나머진 모두 0으로 만드는 0것.
  • 회귀 분석에서 범주형 변수는 사용할 수 없기에 문자로 되어있는 범주 변수를 숫자로 변환해야한다.
  • 독립 범주의 경우에는 독립적인 특성을 보존해야 회귀 분석 해석 명확해지므로 각 변수들이 서로 독립적으로 회귀 분석에 기여하도록 만들어주어야 한다.

ex. 흡연 여부 - 흡연하지 않음(000) / 흡연했으나 끊었다.(001) / 흡연하고 있다.(002)

위 범주형 변수들을 원핫인코딩을 해주어 독립적인 변수로 만들었지만, 결국엔 하나를 가리키는 특성을 갖기 떄문에 다중 공산성 문제가 발생할 수 있다. 이를 방지하기 위해 범주 중 하나는 준거 집단(비교의 기준이 되는 집단)으로서 제외하고, 나머지 변수들만 분석에 포함한다.

2) 결측치 처리

결측치란 데이터의 값이 누락된 것으로 결측값이라고도 한다.

대표적인 방법

  1. 결측치 삭제: 데이터가 충분히 많을 때 사용하는 방법. 결측치가 있는 케이스를 제거함으로써 왜곡 최소화

  2. 평균/중앙값/최빈값으로 대체: 단순히 결측치를 다른 값으로 대체하는 방식. 왜곡 가능성이 크므로 자주 사용 X

  3. 예측 모델을 이용하여 결측치를 채워넣기: 통계적 기법이나 머신러닝 모델을 사용해 결측치를 예측하는 방법. 삭제하는 것 보다는 정교하지만 여전히 왜곡 가능성 존재

3) 이상치 처리

이상치란 주어진 데이터 집합에서 다른 값들과 비교했을 때 크게 벗어난 값을 의미한다.

대표적인 방법

  1. 상자수염을 통한 이상치 시각화
    상자수염을 그려서 각 데이터 값들의 분포와 이상치를 확인

  2. 사분위수와 IQR을 사용한 이상치 처리

  • 사분위수(Quartile)는 데이터 값을 네 부분으로 나누는 기준점
  • 이를 통해 이상치를 처리할 때, IQR(Interquartile Range)라는 개념을 사용
  • IQR은 3사분위수(Q3)와 1사분위수(Q1) 간의 범위를 의미하며, 이를 기준으로 이상치를 정의

이상치 계산 방법

  • IQR = Q3 - Q1

이상치 기준

  • 너무 작은 값: Q1 - 1.5 * IQR
  • 너무 큰 값: Q3 + 1.5 * IQR

T-Test

정의

t분포라는 확률분포를 사용하는 검정 방식

사용 이유

1) 두 그룹의 평균 비교
2) 통계적 유의성 판단 - P-value < 0.05 : 두 그룹의 차이가 통계적으로 유의미함
※ 사용 시점: 표본 크기가 작거나/ 모집단의 분산을 모를 때 사용
아래 3가지 가정 하에 사용

  • 정규성 가정 : 데이터가 정규 분포를 따른다는 가정

  • 등분산성 가정 : 두 그룹의 분산이 동일하다는 가정

  • 독립성 가정 : 두 표본이 독립적이라는 가정

종류

1) 독립표본 T-Test
: 두 개의 독립적인 그룹 간의 평균 차이 비교

2) 대응표본 T-Test
: 동일한 그룹에서 두 개의 다른 시간 또는 조건 간의 평균 차이 비교

3) 단일표본 T-test
: 한 그룹의 평균과 특정 기준 값 비교

기타 사항

  • t분포는 표본 크기가 클수록 Z분포에 수렴
  • t검정은 Z검정을 포함하는 개념이기 때문에, Z검정이 적용 가능한 상황에서도 t검정을 우선적으로 사용
  • 적은 표본 크기에 대해서도 사용 가능하기 때문
  • Z검정은 표본 크기가 크고 모분산을 알고 있는 경우에 적합하지만, 이러한 조건을 충족하지 않아도 t검정은 사용가능
  • 비율 차이 검정의 경우, 모분산을 쉽게 계산할 수 있기 때문에 Z검정이 더 적합