DA 6

[Weekly Paper 7] 장바구니 분석, 지지도, 신뢰도, 향상도

Q: 장바구니 분석의 다양한 활용 사례를 설명해 주세요. 각 사례에서 얻을 수 있는 비즈니스 인사이트는 무엇인지 구체적으로 설명해 주세요.장바구니 분석이란 고객의 구매 데이터에서 상품 간의 연관성을 찾아내는 분석 기법으로, 대표적인 활용 사례는 아래와 같다.커머스 서비스에서 고객들의 결제 데이터를 분석하여 구매 상품 간의 연관성을 기반으로 크로스 셀링/업셀링 등의 마케팅 전략을 기획할 수 있고, 오프라인 판매일 경우 구매 연관도가 높은 상품들을 근접 배치하는 매장 진열 전략을 기획할 수 있다.OTT 서비스에서 유저들의 콘텐츠 시청 데이터를 분석하여 사용자가 많이 본 콘텐츠와 연관 성이 높은 콘텐츠, 해당 유저와 비슷한 유저들이 시청한 콘텐츠 등을 추천하는 추천 알고리즘을 생성할 수 있도록 한다.금융 업계..

[Weekly Paper 6] 차원의 저주 해결, 주성분분석과 요인분석의 차이, 히스토그램의 단점과 대안

Q1. 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering 문제를 해결하기 위한 방법들을 설명해 주세요.차원 축소를 통해 차원의 저주를 해결한다.1. PCA(Principal Component Analysis) 주성분 분석PCA는 고차원 데이터를 몇 개의 주요 성분(Principal Components)으로 변환하여 차원을 줄입니다. 이를 통해 고차원의 데이터를 선정한 주요 성분(주요 Feature)의 데이터로 더 낮은 차원에서 표현할 수 있으며, 클러스터링을 수행하기 전에 데이터의 잡음을 줄이고, 계산 비용을 절감할 수 있습니다.2. t-SNE(t-Distributed Stochastic Neighbor Embe..

[Weekly Paper 5] 사분위수, 기술통계와 추론통계

사분위수정의측정값을 낮은 순에서 높은 순으로 정렬한 후 4등분 했을 때 각 등위에 해당하는 값 (출처:Oracle Help Center)분위수1분위수(25% quantile)(1Q) : 데이터를 작은 수 부터 나열했을때 25%에 해당 하는 수2분위수(50% quantile)(2Q) : 데이터를 작은 수 부터 나열했을때 50%에 해당 하는 수(중앙값)3분위수(75% quantile)(3Q) : 데이터를 작은 수 부터 나열했을때 75%에 해당 하는 수4분위수(100% quantile)(4Q) : 데이터를 작은 수 부터 나열했을때 100%에 해당 하는 수IQR(사분위 범위) = Q3 - Q1의의사분위 범위가 클수록 자료의 분산 정도가 크다.IQR을 활용해서 이상치를 판별할 수 있다.Q1 - 1.5IQR 보다 ..

[Weekly Paper 4] 데이터 전처리 방법(결측치, 이상치 처리 / 범주형 변수 처리)과 T-TEST

데이터 전처리 방법정의데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭종류1) 범주형 변수 처리 - 원 핫 인코딩카테고리별 이진 특성을 만들어 해당 특성을 1, 나머진 모두 0으로 만드는 0것. 회귀 분석에서 범주형 변수는 사용할 수 없기에 문자로 되어있는 범주 변수를 숫자로 변환해야한다.독립 범주의 경우에는 독립적인 특성을 보존해야 회귀 분석 해석 명확해지므로 각 변수들이 서로 독립적으로 회귀 분석에 기여하도록 만들어주어야 한다.ex. 흡연 여부 - 흡연하지 않음(000) / 흡연했으나 끊었다.(001) / 흡연하고 있다.(002)위 범주형 변수들을 원핫인코딩을 해주어 독립적인 변수로 만들었지만, 결국엔 하나를 가리키는 특성을 갖기 떄문에 다중 공산성 문제가 발생할 수 있다. 이를 방지하기 위..

[데이터 시각화] Matplotlib으로 데이터 시각화하기

데이터 시각화 심화 - Matplotlib파이썬에서 가장 기본적인 시각화 라이브러리로, 다양한 기능을 제공1) Matplotlib의 두 가지 인터페이스주요 동작 방식State-based 인터페이스필요한 명령어만으로 간결하게 그래프를 그릴 수 있는 방식현재 상태를 기반으로 동작을 추정해, 더 적은 코드로 그래프를 그림장점: 코드가 간결하고 빠르게 시각화할 수 있음Object-oriented 인터페이스그래프의 각 요소를 세부적으로 조정하며, 명확히 지시하는 방식더 복잡한 명령과 다중 그래프를 다루는 데 유리장점: 세밀한 제어가 가능하고, 여러 그래프를 명확하게 처리 가능두 인터페이스의 차이Object-oriented 방식: 먼저 캔버스를 생성한 후, 그 위에 그래프를 그리는 방식이름을 외우는 것이 아니라, ..

[데이터 분석] 차원의 저주 , 차원 축소, PCA

차원의 저주란차원 : 데이터에서 설명 변수(컬럼)를 의미, 변수가 많을수록 더 많은 정보 담음차원이 많은 데이터는 더 많은 정보를 포함하고 있어, 분석에 있어 결과 정확성 높여줄 수 있음차원의 저주 : 데이터의 차원이 높아질수록 분석 성능이 떨어지는 경우가 발생변수가 많을수록 모델이 과적합되거나 학습이 어려워질 수 있기 때문높아지는 차원에 비해 데이터의 밀도와 비중이 떨어지기에, 모델이 활용할 수 있는 데이터의 양이 상대적으로 모자라기 때문(데이터의 비중이 떨어지는 차원의 예측에 대해서는 심하게는 단 하나의 데이터를 그대로 암기해버릴 수도 있는 것)차원의 축소차원의 저주를 해결하기 위해 차원 축소(Dimensionality Reduction) 사용차원 축소는 데이터의 변수(차원) 수를 줄여 성능을 개선하..