weeklypaper 9

[Weekly Paper 10] A/B테스트, 이벤트 텍소노미, 유저 로그 설계

Q : A/B 테스트의 장점과 단점, 그리고 단점을 해결하기 위한 방안들을 설명해 주세요. A/B테스트는 통제된 환경에서 두 가지(또는 그 이상)의 변수를 비교하여 정량적 데이터를 통해 어느 것이 더 나은지 명확히 확인할 수 있으며, 사용자 중심의 개선에 기여한다는 점에서 장점이 있습니다. 또한 변경 사항을 전체 사용자에게 적용하기 전에 일부 사용자 그룹에서 테스트하여 리스크를 감소시킬 수 있습니다.하지만 초기 기대감으로 비정상적인 데이터가 발생하는 신기 효과의 발생, 사용자가 변화에 적응하지 못한 데이터 반영 가능성 존재, 초반 샘플 크기가 작아 비교적 큰 통계적 변동성 발생, 외부 요인이 데이터에 영향을 중 가능성 존재 등의 단점이 존재하며, 초반 일정 기간을 제외하는 안정세 기간을 설정하고, 주요 ..

[Weekly Paper 9] 획득 지표(Acquisition), 고객 생애 가치(LTV)

Q : 원하는 제품/서비스를 하나 선택하여 해당 상품/서비스에서 가장 중요한 획득 지표는 무엇인지 설명해 주세요. 그 이유를 구체적으로 설명해 주세요. 중고거래 플랫폼에서 동네 커뮤니티 서비스로 진화한 '당근' 에서는 (앱 가입자 수)가 가장 중요한 획득 지표일 것입니다. 왜냐하면 '당근'은 앱으로만 서비스를 제공하고 있고, 앱을 다운로드 받더라도 가입없이 서비스를 이용할 수 없어 가입하지 않고서는 유저가 서비스의 'AHA-Moment'를 경험할 수 없기 때문입니다. 유저가 'AHA-Moment'를 경험해야 고객이 서비스에 유지되며(Retention) 결국엔 매출(Revenue)과 추천(Referral)으로 이어져 고객 생애 가치를 높이고 서비스 확장에 기여하게 되기 때문입니다.Q : 고객 생애 가치(L..

[Weekly Paper 7] 장바구니 분석, 지지도, 신뢰도, 향상도

Q: 장바구니 분석의 다양한 활용 사례를 설명해 주세요. 각 사례에서 얻을 수 있는 비즈니스 인사이트는 무엇인지 구체적으로 설명해 주세요.장바구니 분석이란 고객의 구매 데이터에서 상품 간의 연관성을 찾아내는 분석 기법으로, 대표적인 활용 사례는 아래와 같다.커머스 서비스에서 고객들의 결제 데이터를 분석하여 구매 상품 간의 연관성을 기반으로 크로스 셀링/업셀링 등의 마케팅 전략을 기획할 수 있고, 오프라인 판매일 경우 구매 연관도가 높은 상품들을 근접 배치하는 매장 진열 전략을 기획할 수 있다.OTT 서비스에서 유저들의 콘텐츠 시청 데이터를 분석하여 사용자가 많이 본 콘텐츠와 연관 성이 높은 콘텐츠, 해당 유저와 비슷한 유저들이 시청한 콘텐츠 등을 추천하는 추천 알고리즘을 생성할 수 있도록 한다.금융 업계..

[Weekly Paper 6] 차원의 저주 해결, 주성분분석과 요인분석의 차이, 히스토그램의 단점과 대안

Q1. 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering 문제를 해결하기 위한 방법들을 설명해 주세요.차원 축소를 통해 차원의 저주를 해결한다.1. PCA(Principal Component Analysis) 주성분 분석PCA는 고차원 데이터를 몇 개의 주요 성분(Principal Components)으로 변환하여 차원을 줄입니다. 이를 통해 고차원의 데이터를 선정한 주요 성분(주요 Feature)의 데이터로 더 낮은 차원에서 표현할 수 있으며, 클러스터링을 수행하기 전에 데이터의 잡음을 줄이고, 계산 비용을 절감할 수 있습니다.2. t-SNE(t-Distributed Stochastic Neighbor Embe..

[Weekly Paper 5] 사분위수, 기술통계와 추론통계

사분위수정의측정값을 낮은 순에서 높은 순으로 정렬한 후 4등분 했을 때 각 등위에 해당하는 값 (출처:Oracle Help Center)분위수1분위수(25% quantile)(1Q) : 데이터를 작은 수 부터 나열했을때 25%에 해당 하는 수2분위수(50% quantile)(2Q) : 데이터를 작은 수 부터 나열했을때 50%에 해당 하는 수(중앙값)3분위수(75% quantile)(3Q) : 데이터를 작은 수 부터 나열했을때 75%에 해당 하는 수4분위수(100% quantile)(4Q) : 데이터를 작은 수 부터 나열했을때 100%에 해당 하는 수IQR(사분위 범위) = Q3 - Q1의의사분위 범위가 클수록 자료의 분산 정도가 크다.IQR을 활용해서 이상치를 판별할 수 있다.Q1 - 1.5IQR 보다 ..

[Weekly Paper 4] 데이터 전처리 방법(결측치, 이상치 처리 / 범주형 변수 처리)과 T-TEST

데이터 전처리 방법정의데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭종류1) 범주형 변수 처리 - 원 핫 인코딩카테고리별 이진 특성을 만들어 해당 특성을 1, 나머진 모두 0으로 만드는 0것. 회귀 분석에서 범주형 변수는 사용할 수 없기에 문자로 되어있는 범주 변수를 숫자로 변환해야한다.독립 범주의 경우에는 독립적인 특성을 보존해야 회귀 분석 해석 명확해지므로 각 변수들이 서로 독립적으로 회귀 분석에 기여하도록 만들어주어야 한다.ex. 흡연 여부 - 흡연하지 않음(000) / 흡연했으나 끊었다.(001) / 흡연하고 있다.(002)위 범주형 변수들을 원핫인코딩을 해주어 독립적인 변수로 만들었지만, 결국엔 하나를 가리키는 특성을 갖기 떄문에 다중 공산성 문제가 발생할 수 있다. 이를 방지하기 위..

[Weekly Paper 3] 제 1종/2종 오류, p-value

가설(Hypothesis)1. 개념진실이라고 확증할 수는 없지만 아마도 그럴 것이라고 추정하는 잠정적인 주장2. 종류1) 귀무 가설(H0 : Null Hypothesis): 모집단의 특성에 대해 옳다고 주장하는 잠정적인 주장[예시]검증 주제 : 10월 마케팅 액션의 효과귀무 가설 : 10월 마케팅 액션은 효과가 없다. / 10월 마케팅 액션 전 후로 차이가 없다. 2) 대립 가설(H1 : Alternatie Hypothesis): 귀무 가설이 거짓이라면 대안으로 참이 되는 가설[예시]검증 주제 : 10월 마케팅 액션의 효과귀무 가설 : 10월 마케팅 액션은 효과가 있다. / 10월 마케팅 액션 전 후로 차이가 있다.3. 특이사항통계학에서는 귀무 가설이 옳다는 전제 하에 검증 시도귀무 가설을 기각하여 대립..

[Weekly Paper 2] CLI, 터미널 사용법, 절대경로, 상대경로, Git

커맨드 라인 인터페이스 (Command Line Interface)1) 기본 용어 정리유닉스1970년대 초반에 개발된 운영체제소프트웨어 개발 실행 가능한 플랫폼쉽게 수정해서 다른 컴퓨터에 적용 가능유닉스를 기반으로 하는 다양한 운영 체제 탄생CLICommand Line Interface의 준말로, 말 그대로 커맨드를 통해 컴퓨터를 사용하는 방식필요한 라이브러리 설치 관리협업시 코드 관리웹 개발 환경 설정/서버 실행GUIGraphic User Interface의 준말로, 화면과 마우스를 통해 컴퓨터를 사용하는 방식윈도우의 클릭 -> 파일 열기, 드래그 -> 파일 이동과 같은 것들.프롬프트사용자@기기명 ~(working_dir:현재 파일 위치) %/$(끝)터미널입력 출력을 보여주는 검은 창쉘/bashbash..

[Weekly Paper 1] 객체 지향 프로그래밍, 클래스, 인스턴스 / 정적 메소드

1) 객체 지향 프로그래밍(Object Oriented Pragramming): 프로그래밍에서 필요한 데이터를 추상화시켜 상태와 행위를 가진 객체로 만들고, 객체들 간의 상호작용을 통해 로직을 구성하는 프로그래밍 방법. 쉽게 말하면 데이터와 처리방법으로 프로그램을 구성하는 것이 아닌, 다수의 "객체"를 만들어 이들 간의 서로 상호작용을 통해 프로그램을 만드는 방식객체 = 데이터의 분산을 막기 위해 데이터와 기능을 하나로 묶은 그룹 ex. FC온라인 게임객체 : 구단주데이터(속성) : 이름, 연령, 구단가치 등기능(행동) : login(), play_game(), sell_player() 등추상화 = 클래스를 설계하는 것 = 공통의 속성이나 기능을 묶어 이름을 붙이는 것2) 클래스와 인스턴스클래스객체 ..