DA Study/Data Analytics

[통계] 통계적 가설 검정

harrym8n 2025. 1. 3. 10:51

관련 개념

  • 대립가설(alternative hypothesis) : 우리가 밝히고자 하는 가설 (차이가 있다, 효과가 있다)

  • 귀무가설(null hypothesis) : 우리가 밝히고자 하는 가설과 반대되는 가정 (차이가 없다, 효과가 없다)

  • P-value : 귀무가설이 옳다는 가정 하에서 우리가 관찰한 결과 혹은 그 이상으로 귀무가설에 반하는 데이터가 나타날 확률

  • 제1종 오류: 귀무가설이 옳은데 대립가설을 채택하는 경우. 위양성(false positive)

    • 유의수준(significance level) : 제 1종 오류가 일어날 확률, α
    • 2종 오류보다 치명적임
  • 제2종 오류: 대립가설이 옳은데 귀무가설을 기각하지 않는 경우. 위음성(false negative)

    • β : 제 2종 오류가 일어날 확률
    • 검정력(power of test) : 1 - β
  • 통계적 유의미성

    • p값이 유의수준 아래이므로 귀무가설을 기각했다 = 통계적으로 유의미한 차이가 있다.

절차

  1. 가설 수립 : 모집단을 대상으로 가설 수립

    • 추론통계의 본질은 표본집단으로 모집단을 추론하는 것
    • ex) 인앱메시지 A안과 B안 사이에 클릭률 차이가 존재할 것이다.
  2. 수립한 가설(우리가 밝히고자 하는 가설, 대립가설)과 반대되는 가정을 생각하고, 이 가설을 옳다고 가정(귀무가설)

    • ex) 인앱메시지 A안과 B안 사이에 클릭률 차이가 존재하지 않을 것이다.
  3. 표본 수집 후 데이터 관찰 후 귀무가설이 옳다고 할 때, 관찰한 데이터가 나타날 확률 측정

    • ex) 만약 A,B안 사이에 차이가 없다고 하면, 우리가 관찰한 것과 같은 수치 차이가 존재할 확률은?
  4. 해당 확률(P-value)이 일정 수준(유의 수준, 알파)보다 낮다면 대립가설 채택 / 높다면 귀무가설 채택

요약 : 가설을 세우고 표본 데이터를 관찰한 후, p-value와 유의 수준 α와 비교하고 귀무가설의 기각 여부를 결정

가설 방법 선택

데이터 유형

  • 양적 변수(quantitative variable): 키, 몸무게 등 양적 수치로 표현되는 변수

  • 범주형 변수(categorical variable): 성별, 자동차 브랜드 등 몇 가지 그룹으로 구분되어 측정되는 변수

양적 변수 성질

  1. 정규성 가정 : 모집단이 정규분포를 따른다.

    • 정규성 가정이 만족되면 모수 검정(parametric test) 방법 사용
    • 정규성 가정이 만족되지 않으면 비모수 검정(nonparametric test) 방법 사용
    • 정규성 판별 > Q-Q플롯, 샤피로-윌크 검정(Shapiro-Wilk test), 콜모고로프-스미르노프 검정(Kolmogorov-Smirnov test) 등
    • 표본 크기가 충분히 크다면 모집단의 분포가 정규분포에서 아주 조금 벗어난 것만으로 정규성을 만족시키지 않는다는 결과 나옴
      • 따라서 현업에서는 대부분 그냥 모수 검정 사용해서 큰 문제 없음
  2. 등분산성 가정: 집단 간 분산이 동일하다.

    • 등분산 > 스튜던트의 T검정(Student’s t-test)
    • 이분산 > 웰치의 t검정(Welch’s t-test)
    • 등분산성 판별 : 레빈 검정(Leven’s test) / 바틀렛 검정(Bartlett’s test)