사분위수
정의
측정값을 낮은 순에서 높은 순으로 정렬한 후 4등분 했을 때 각 등위에 해당하는 값 (출처:Oracle Help Center)
분위수
1분위수(25% quantile)(1Q) : 데이터를 작은 수 부터 나열했을때 25%에 해당 하는 수
2분위수(50% quantile)(2Q) : 데이터를 작은 수 부터 나열했을때 50%에 해당 하는 수(중앙값)
3분위수(75% quantile)(3Q) : 데이터를 작은 수 부터 나열했을때 75%에 해당 하는 수
4분위수(100% quantile)(4Q) : 데이터를 작은 수 부터 나열했을때 100%에 해당 하는 수
- IQR(사분위 범위) = Q3 - Q1
의의
- 사분위 범위가 클수록 자료의 분산 정도가 크다.
- IQR을 활용해서 이상치를 판별할 수 있다.
- Q1 - 1.5IQR 보다 적은 수 / Q3 + 1.5IQR 보다 큰 수
기술통계와 추론통계
| 기술통계
기술 통계는 데이터의 간결한 요약 정보를 제공하는 통계이다. 수치적으로 또는 그래픽적으로 데이터를 요약할 수 있다. 평균, 중앙값(median), 최빈값(mode), 범위(range), 사분위수 범위(interquartile range), 분산, 표분편차 등의 통계값이 대표적인 기술 통계값이다.
| 추론통계
표본 데이터를 활용하여 모집단에 대한 결론을 도출하는 통계로, 기술통계는 있는 데이터 만을 가지고 보기 좋게 다른 형태로 보여주는 기능을 할 뿐이지만, 추론통계는 데이터에 대한 분석을 바탕으로 데이터를 넘어서는 무언가를 추론하는 것이다. 모집단을 추정하는 방법으로는 점추정(point estimate), 구간추정(interval estimate)이 있으며, 가설을 검증하는 방법에는 카이제곱 검정, t검정/평균검검, 카이제곱 검정/독립성 검정, F검정/분산분석, 상관분석, 회귀분석 등이 있다.
Q: 사분위수에 대해서 설명해주세요.
사분위수는 측정값을 낮은 순에서 높은 순으로 정렬한 후 4등분 했을 때 각 등위에 해당하는 값입니다. 사분위 범위가 클수록 자료의 분산 정도가 크며, 사분위수를 활용해서 이상치를 판별할 수 있습니다.
Q: 기술통계와 추론통계는 무엇이고 ,어떤 차이가 있나요?
기술통계는 데이터의 간결한 요약 정보를 제공하는 통계고, 추론통계는 표본 데이터를 활용하여 모집단에 대한 결론을 도출하는 통계입니다. 기술통계는 있는 데이터 만을 가지고 보기 좋게 다른 형태로 보여주는 기능을 할 뿐이지만, 추론통계는 데이터에 대한 분석을 바탕으로 데이터를 넘어서는 무언가를 추론한다는 점에서 차이가 있습니다.
'DA Study > Weekly Paper' 카테고리의 다른 글
[Weekly Paper 7] 장바구니 분석, 지지도, 신뢰도, 향상도 (8) | 2024.12.17 |
---|---|
[Weekly Paper 6] 차원의 저주 해결, 주성분분석과 요인분석의 차이, 히스토그램의 단점과 대안 (1) | 2024.12.17 |
[Weekly Paper 4] 데이터 전처리 방법(결측치, 이상치 처리 / 범주형 변수 처리)과 T-TEST (1) | 2024.12.17 |
[Weekly Paper 3] 제 1종/2종 오류, p-value (0) | 2024.12.17 |
[Weekly Paper 2] CLI, 터미널 사용법, 절대경로, 상대경로, Git (0) | 2024.12.17 |