데이터 전처리 방법
정의
데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭
종류
1) 범주형 변수 처리 - 원 핫 인코딩
- 카테고리별 이진 특성을 만들어 해당 특성을 1, 나머진 모두 0으로 만드는 0것.
- 회귀 분석에서 범주형 변수는 사용할 수 없기에 문자로 되어있는 범주 변수를 숫자로 변환해야한다.
- 독립 범주의 경우에는 독립적인 특성을 보존해야 회귀 분석 해석 명확해지므로 각 변수들이 서로 독립적으로 회귀 분석에 기여하도록 만들어주어야 한다.
ex. 흡연 여부 - 흡연하지 않음(000) / 흡연했으나 끊었다.(001) / 흡연하고 있다.(002)
위 범주형 변수들을 원핫인코딩을 해주어 독립적인 변수로 만들었지만, 결국엔 하나를 가리키는 특성을 갖기 떄문에 다중 공산성 문제가 발생할 수 있다. 이를 방지하기 위해 범주 중 하나는 준거 집단(비교의 기준이 되는 집단)으로서 제외하고, 나머지 변수들만 분석에 포함한다.
2) 결측치 처리
결측치란 데이터의 값이 누락된 것으로 결측값이라고도 한다.
대표적인 방법
결측치 삭제: 데이터가 충분히 많을 때 사용하는 방법. 결측치가 있는 케이스를 제거함으로써 왜곡 최소화
평균/중앙값/최빈값으로 대체: 단순히 결측치를 다른 값으로 대체하는 방식. 왜곡 가능성이 크므로 자주 사용 X
예측 모델을 이용하여 결측치를 채워넣기: 통계적 기법이나 머신러닝 모델을 사용해 결측치를 예측하는 방법. 삭제하는 것 보다는 정교하지만 여전히 왜곡 가능성 존재
3) 이상치 처리
이상치란 주어진 데이터 집합에서 다른 값들과 비교했을 때 크게 벗어난 값을 의미한다.
대표적인 방법
상자수염을 통한 이상치 시각화
상자수염을 그려서 각 데이터 값들의 분포와 이상치를 확인사분위수와 IQR을 사용한 이상치 처리
- 사분위수(Quartile)는 데이터 값을 네 부분으로 나누는 기준점
- 이를 통해 이상치를 처리할 때, IQR(Interquartile Range)라는 개념을 사용
- IQR은 3사분위수(Q3)와 1사분위수(Q1) 간의 범위를 의미하며, 이를 기준으로 이상치를 정의
이상치 계산 방법
- IQR = Q3 - Q1
이상치 기준
- 너무 작은 값: Q1 - 1.5 * IQR
- 너무 큰 값: Q3 + 1.5 * IQR
T-Test
정의
t분포라는 확률분포를 사용하는 검정 방식
사용 이유
1) 두 그룹의 평균 비교
2) 통계적 유의성 판단 - P-value < 0.05 : 두 그룹의 차이가 통계적으로 유의미함
※ 사용 시점: 표본 크기가 작거나/ 모집단의 분산을 모를 때 사용
아래 3가지 가정 하에 사용
정규성 가정 : 데이터가 정규 분포를 따른다는 가정
등분산성 가정 : 두 그룹의 분산이 동일하다는 가정
독립성 가정 : 두 표본이 독립적이라는 가정
종류
1) 독립표본 T-Test
: 두 개의 독립적인 그룹 간의 평균 차이 비교
2) 대응표본 T-Test
: 동일한 그룹에서 두 개의 다른 시간 또는 조건 간의 평균 차이 비교
3) 단일표본 T-test
: 한 그룹의 평균과 특정 기준 값 비교
기타 사항
- t분포는 표본 크기가 클수록 Z분포에 수렴
- t검정은 Z검정을 포함하는 개념이기 때문에, Z검정이 적용 가능한 상황에서도 t검정을 우선적으로 사용
- 적은 표본 크기에 대해서도 사용 가능하기 때문
- Z검정은 표본 크기가 크고 모분산을 알고 있는 경우에 적합하지만, 이러한 조건을 충족하지 않아도 t검정은 사용가능
- 비율 차이 검정의 경우, 모분산을 쉽게 계산할 수 있기 때문에 Z검정이 더 적합
'DA Study > Weekly Paper' 카테고리의 다른 글
[Weekly Paper 6] 차원의 저주 해결, 주성분분석과 요인분석의 차이, 히스토그램의 단점과 대안 (1) | 2024.12.17 |
---|---|
[Weekly Paper 5] 사분위수, 기술통계와 추론통계 (0) | 2024.12.17 |
[Weekly Paper 3] 제 1종/2종 오류, p-value (0) | 2024.12.17 |
[Weekly Paper 2] CLI, 터미널 사용법, 절대경로, 상대경로, Git (0) | 2024.12.17 |
[Weekly Paper 1] 객체 지향 프로그래밍, 클래스, 인스턴스 / 정적 메소드 (0) | 2024.12.17 |