본 프로젝트의 목적은 음악 구독 서비스 고객의 행동 패턴과 지역 사회경제적 특성을 기반으로 고객 이탈(churned)을 예측하고, 이탈을 유발하는 주요 요인을 파악하는 것이다. 고객 행동 데이터와 미국 Census 데이터를 결합해 전처리, EDA, 가설 검증을 수행하였다.
Streaming Subscription Churn Modelacs2015_census_tract_datamusic_df): 125,000행, 20개 컬럼census_df): 74,001행, 37개 컬럼model_df): 125,000행, 20개 컬럼고객 데이터에서는 location의 오타(Nebrasksa → Nebraska)를 수정하고, customer_id를 제거했으며, average_session_length를 분 단위에서 시간 단위로 변환했다. 또한 weekly_unique_songs > weekly_songs_played인 경우 상한 보정을 적용했고, signup_date는 절댓값 기준 tenure_days로 재정의한 뒤 원 컬럼을 삭제했다.
Census 데이터에서는 Income 결측치 1,100건을 State별 중앙값으로 대체했고, TotalPop == 0은 690건이었다. 이후 State 단위로 TotalPop 합계와 Income 평균을 집계하여 State_TotalPop, State_AvgIncome을 생성했다.
병합은 location과 State를 기준으로 수행했으며, 결과는 다음과 같다.
both: 125,000건 (100%)left_only: 0건right_only: 0건병합 후 State, _merge, State_TotalPop은 제거했고, 최종 분석에는 State_AvgIncome만 사용했다.
또한 논리 점검 결과 아래 조건 위반은 모두 0건이었다.
weekly_unique_songs > weekly_songs_playedaverage_session_length <= 0song_skip_rate < 0 or > 1weekly_hours < 0tenure_days < 0