dataanalyst 6

[당근] 당근은 왜 메시지 기능을 고도화했을까?_02 #역분석 #당근

본 포스팅은 스터디 목적으로 실제 사실과 관계없이 '해당 기업의 프로덕트팀이 왜 이런 개선을 진행했을까'를 역으로 분석해본 내용을 담고 있습니다.대부분의 내용은 실제 사실과 관계없는 가정을 기반으로한 주관적인 견해 혹은 추측이며, 피드백은 언제나 환영입니다!  저번 포스팅에서는 당근이 왜 메시지 기능을 고도화하게 됐을지 여러 상황과 기업 비전 등을 연결하여 추론해보았는데요!👉 이전글 보러가기 [당근] 당근은 왜 메시지 기능을 고도화했을까?_01 #역분석 #당근본 포스팅은 스터디 목적으로 실제 사실과 관계없이 '해당 기업의 프로덕트팀이 왜 이런 개선을 진행했을까'를 역으로 분석해본 내용을 담고 있습니다.대부분의 내용은 실제 사실과 관계없는harrym8n.tistory.com 이번 포스팅에서는 이어서 '메..

[Weekly Paper 6] 차원의 저주 해결, 주성분분석과 요인분석의 차이, 히스토그램의 단점과 대안

Q1. 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering 문제를 해결하기 위한 방법들을 설명해 주세요.차원 축소를 통해 차원의 저주를 해결한다.1. PCA(Principal Component Analysis) 주성분 분석PCA는 고차원 데이터를 몇 개의 주요 성분(Principal Components)으로 변환하여 차원을 줄입니다. 이를 통해 고차원의 데이터를 선정한 주요 성분(주요 Feature)의 데이터로 더 낮은 차원에서 표현할 수 있으며, 클러스터링을 수행하기 전에 데이터의 잡음을 줄이고, 계산 비용을 절감할 수 있습니다.2. t-SNE(t-Distributed Stochastic Neighbor Embe..

[Weekly Paper 5] 사분위수, 기술통계와 추론통계

사분위수정의측정값을 낮은 순에서 높은 순으로 정렬한 후 4등분 했을 때 각 등위에 해당하는 값 (출처:Oracle Help Center)분위수1분위수(25% quantile)(1Q) : 데이터를 작은 수 부터 나열했을때 25%에 해당 하는 수2분위수(50% quantile)(2Q) : 데이터를 작은 수 부터 나열했을때 50%에 해당 하는 수(중앙값)3분위수(75% quantile)(3Q) : 데이터를 작은 수 부터 나열했을때 75%에 해당 하는 수4분위수(100% quantile)(4Q) : 데이터를 작은 수 부터 나열했을때 100%에 해당 하는 수IQR(사분위 범위) = Q3 - Q1의의사분위 범위가 클수록 자료의 분산 정도가 크다.IQR을 활용해서 이상치를 판별할 수 있다.Q1 - 1.5IQR 보다 ..

[데이터 시각화] Matplotlib으로 데이터 시각화하기

데이터 시각화 심화 - Matplotlib파이썬에서 가장 기본적인 시각화 라이브러리로, 다양한 기능을 제공1) Matplotlib의 두 가지 인터페이스주요 동작 방식State-based 인터페이스필요한 명령어만으로 간결하게 그래프를 그릴 수 있는 방식현재 상태를 기반으로 동작을 추정해, 더 적은 코드로 그래프를 그림장점: 코드가 간결하고 빠르게 시각화할 수 있음Object-oriented 인터페이스그래프의 각 요소를 세부적으로 조정하며, 명확히 지시하는 방식더 복잡한 명령과 다중 그래프를 다루는 데 유리장점: 세밀한 제어가 가능하고, 여러 그래프를 명확하게 처리 가능두 인터페이스의 차이Object-oriented 방식: 먼저 캔버스를 생성한 후, 그 위에 그래프를 그리는 방식이름을 외우는 것이 아니라, ..

[데이터 분석] 차원의 저주 , 차원 축소, PCA

차원의 저주란차원 : 데이터에서 설명 변수(컬럼)를 의미, 변수가 많을수록 더 많은 정보 담음차원이 많은 데이터는 더 많은 정보를 포함하고 있어, 분석에 있어 결과 정확성 높여줄 수 있음차원의 저주 : 데이터의 차원이 높아질수록 분석 성능이 떨어지는 경우가 발생변수가 많을수록 모델이 과적합되거나 학습이 어려워질 수 있기 때문높아지는 차원에 비해 데이터의 밀도와 비중이 떨어지기에, 모델이 활용할 수 있는 데이터의 양이 상대적으로 모자라기 때문(데이터의 비중이 떨어지는 차원의 예측에 대해서는 심하게는 단 하나의 데이터를 그대로 암기해버릴 수도 있는 것)차원의 축소차원의 저주를 해결하기 위해 차원 축소(Dimensionality Reduction) 사용차원 축소는 데이터의 변수(차원) 수를 줄여 성능을 개선하..

[데이터 분석] 클러스터링 모델들 - 덴드로그램(Dendrogram) / DBSCAN / GMM

1. 계층 기반 클러스터링계층 구조 기반 클러스터링 방법유사한 데이터를 묶고, 이를 층으로 쌓아가며 클러스터링 수행시각화된 결과물을 통해 데이터 간의 관계를 쉽게 파악할 수 있으며, 원하는 수의 클러스터로 구분하는 것이 간단계층적 클러스터링은 유사한 데이터들을 순차적으로 묶어가며 클러스터를 형성하는 방법입니다. 이를 Bottom-up 클러스터링이라고도 하며, 데이터가 하나의 클러스터로 모두 묶일 때까지 과정을 반복합니다.[ 계층적 클러스터링 과정 ]가장 가까운 데이터 쌍을 묶기각 데이터 사이의 거리를 계산해 가장 가까운 데이터들부터 묶어 나갑니다.묶인 데이터(클러스터)끼리도 거리 계산이미 묶인 데이터 쌍끼리의 거리도 계산해, 더 가까운 쌍을 하나의 클러스터로 묶습니다.클러스터링 반복모든 데이터가 하나의 ..