음악 구독 사용자 데이터
① 기본 정보
- customer_id : 사용자 식별자 → 삭제
- age : 사용자 나이
- location : 미국 주(State)
- signup_date : 가입일
② 구독 및 결제 정보
- subscription_type : 구독 유형
- payment_plan : 월간 / 연간
- payment_method : 결제 방식
- num_subscription_pauses : 구독 일시정지 횟수
③ 고객 행동 데이터 (핵심)
- weekly_hours : 주당 평균 청취 시간
- average_session_length : 평균 세션 시간/60
- song_skip_rate : 노래 스킵 비율
- weekly_songs_played : 주간 재생 곡 수
- weekly_unique_songs : 주간 고유곡 수
- num_favorite_artists : 즐겨찾기 아티스트 수
- num_platform_friends : 플랫폼 내 친구 수
- num_playlists_created : 생성한 플레이리스트 수
- num_shared_playlists : 공유 플레이리스트 수
- notifications_clicked : 알림 클릭 횟수
- customer_service_inquiries : 고객센터 문의 횟수
④ 타겟 변수
- churned : 이탈 여부 (0/1)
0은 고객 활성 상태, 1은 고객 이탈했음
미국 Census 인구/사회 데이터
사용 변수
- State : 주
- TotalPop : 총 인구
- Income : 소득(평균소득 구해야 함)
→ 결측치(주별 중앙값으로) 채우기 + 주별 평균 소득 도출
컬럼에 붙이는 건 평균값으로
파생 가능 변수 (해석용)
- male_ratio = Men / TotalPop
- 인종 비율 변수
- 지역 다양성 지수
- log_population (도시 규모 지표)
평균 세션 시간 단위 → hour로 통일
주간 재생 곡 수 < 주간 고유곡 수 → 고유곡 수가 더 크면 재생곡 수로 대체
원핫인코딩 수정 → 해당 코드 빼기
catboost 용 인코딩 전 컬럼 살리기