DA Study/Data Analytics

[통계] 통계 리터러시를 위한 기본 개념(정규분포, 오차, 표준오차, 신뢰구간)

harrym8n 2025. 1. 2. 09:42
  • 정규 분포 : 정규분포는 평균 μ와 표준 편차 σ라는 2개의 값으로 정해지는 확률분포
    • 평균을 중심으로 한 좌우대칭 종형 분포
    • 정규분포의 성질
      1. μ-σ ~ μ+σ 사이에 값이 있을 확률 - 68%
      2. μ-2σ ~ μ+2σ 사이에 값이 있을 확률 - 95%
      3. μ-3σ ~ μ+3σ 사이에 값이 있을 확률 - 99.7%
  • 중심극한정리(CLT, Central Limit Theorem)
    • 모집단의 분포와 관계없이, 이 모집단에서 추출된 표본의 크기가 충분히 크다면 반복적으로 추출된 표본 평균들의 분포는 정규분포에 가까워진다.
    • ‘표본 평균’의 분포에 대한 말이지 특정 표본의 분포에 대한 말이 아니다.
    • 모집단의 분포와 관계없이, 이 모집단에서 추출된 표본의 크기가 충분히 크다면 반복적으로 추출된 표본 평균들의 분포는 평균이 모평균 μ이고 표준편차가 σ/n**0.5 인 정규분포에 가까워짐
  • 오차(편차, error)
    • 표본을 통해 얻은 평균 또는 비율이 참값(모집단의 실제 값)에서부터 어떤 확률과 정도로 벗어나 있는지 나타내는 지표
    • 오차는 수집된 데이터의 수와 해당 데이터의 불규칙성에 따라 달라진다.
$$ SE = \frac{s}{\sqrt{n}} $$
  • 표준오차 : 여러 차례 뽑은 표본의 평균들로 만든 분포에서의 표준편차(표본 평균의 표준편차)
    • 표준오차가 작을수록 표본 평균의 분포는 실제의 모평균 주위로 뾰족하게 모여 있는 구조 > 우리가 관찰한 표본의 평균이 모평균과 가까울 확률이 높아질 것
    • 표준오차가 작을수록 우리는 표본조사를 통해 모집단의 참값과 근사해감
  • 신뢰구간(CI, Confidence Interval) : 모집단의 값이 어느 범위에 있는지 확률적으로 보여주는 방법
    • 95% 신뢰구간 = 모평균은 그대로이지만 우리가 추출하는 표본의 평균과 표준편차가 표본을 추출할 때마다 달라지기 때문에 신뢰구간도 각각 다르게 계산된다. 다르게 계산된 여러 개의 신뢰구간 중 95%만 모평균을 제대로 포함한다는 뜻