사분위수 2

[Weekly Paper 5] 사분위수, 기술통계와 추론통계

사분위수정의측정값을 낮은 순에서 높은 순으로 정렬한 후 4등분 했을 때 각 등위에 해당하는 값 (출처:Oracle Help Center)분위수1분위수(25% quantile)(1Q) : 데이터를 작은 수 부터 나열했을때 25%에 해당 하는 수2분위수(50% quantile)(2Q) : 데이터를 작은 수 부터 나열했을때 50%에 해당 하는 수(중앙값)3분위수(75% quantile)(3Q) : 데이터를 작은 수 부터 나열했을때 75%에 해당 하는 수4분위수(100% quantile)(4Q) : 데이터를 작은 수 부터 나열했을때 100%에 해당 하는 수IQR(사분위 범위) = Q3 - Q1의의사분위 범위가 클수록 자료의 분산 정도가 크다.IQR을 활용해서 이상치를 판별할 수 있다.Q1 - 1.5IQR 보다 ..

[Weekly Paper 4] 데이터 전처리 방법(결측치, 이상치 처리 / 범주형 변수 처리)과 T-TEST

데이터 전처리 방법정의데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭종류1) 범주형 변수 처리 - 원 핫 인코딩카테고리별 이진 특성을 만들어 해당 특성을 1, 나머진 모두 0으로 만드는 0것. 회귀 분석에서 범주형 변수는 사용할 수 없기에 문자로 되어있는 범주 변수를 숫자로 변환해야한다.독립 범주의 경우에는 독립적인 특성을 보존해야 회귀 분석 해석 명확해지므로 각 변수들이 서로 독립적으로 회귀 분석에 기여하도록 만들어주어야 한다.ex. 흡연 여부 - 흡연하지 않음(000) / 흡연했으나 끊었다.(001) / 흡연하고 있다.(002)위 범주형 변수들을 원핫인코딩을 해주어 독립적인 변수로 만들었지만, 결국엔 하나를 가리키는 특성을 갖기 떄문에 다중 공산성 문제가 발생할 수 있다. 이를 방지하기 위..