메인 데이터셋: https://www.kaggle.com/datasets/nabihazahid/spotify-dataset-for-churn-analysis

보조 데이터셋: https://www.kaggle.com/datasets/coulsonlll/spotify-user-behavior-survey-data

요약

본 프로젝트는 Spotify 도메인 공개 데이터셋을 활용하여 구독 고객의 이탈 가능성을 예측하고, 설문형 사용자 행동 데이터를 통해 유지·전환 가능성이 높은 세그먼트를 해석하는 머신러닝 프로젝트이다. 메인 데이터셋으로는 churn 라벨이 포함된 합성 사용자 데이터를 사용하여 분류 모델을 구축하고, 보조 데이터셋으로는 사용 기간, 구독 플랜, 프리미엄 의향, 추천 만족도 등의 설문 데이터를 사용하여 사용자 행동 특성을 분석한다. 이를 통해 단순한 예측 정확도 제시에 그치지 않고, 어떤 고객군에 어떤 유지 전략이 필요한지까지 제안하는 것을 목표로 한다.


1. 프로젝트명

Spotify 구독 고객 이탈 리스크 예측 및 사용자 행동 세그먼트 분석


2. 프로젝트 개요 및 문제정의

본 프로젝트의 목적은 Spotify 도메인에서 구독 고객의 이탈 가능성을 예측하고, 추가 설문 데이터를 활용해 어떤 행동 특성을 가진 사용자가 이탈 위험군에 가까운지 해석하는 데 있다. 메인 데이터셋으로는 is_churned 타깃이 포함된 합성 churn 데이터셋을 사용하고, 보조 데이터셋으로는 사용자 이용 기간, 구독 플랜, 프리미엄 의향, 추천 만족도 등을 담은 설문형 행동 데이터를 활용한다. 따라서 이 프로젝트는 **“실제 Spotify 운영 로그를 이용한 생산 환경용 churn 예측”**이라기보다, **“Spotify 도메인 기반 churn-risk 예측과 행동 해석 프로젝트”**로 정의하는 것이 적절하다.

문제정의

Spotify와 같은 구독형 서비스에서는 모든 고객에게 동일한 유지 전략을 적용하기보다, 이탈 가능성이 높은 고객을 먼저 식별하고 그 원인을 해석하는 것이 중요하다. 이에 본 프로젝트에서는 다음 두 가지 분석 문제를 설정한다.

  1. 예측 문제

    사용자의 인구통계 정보, 구독 형태, 청취 시간, 곡 스킵 비율, 광고 청취 수, 오프라인 청취 여부 등의 정보를 이용해 고객의 churn 여부(is_churned)를 예측한다.

  2. 해석 문제

    설문형 사용자 행동 데이터에서 구독 플랜, 사용 기간, 프리미엄 구독 의향, 추천 만족도를 기준으로 세그먼트를 구성하고, 어떤 유형의 사용자가 유지 가능성이 높거나 반대로 이탈 위험군에 가까운지 해석한다.

핵심 연구 질문