churn (0 = 멤버십 유지/활성, 1 = 멤버십 해지/장기 미접속 이탈)customer_id (모델 학습 시 제거)age, gender, tenure (가입 기간)days_since_last_login (마지막 로그인 후 경과일), app_usage_time (월평균 앱 체류 시간)recency (최근 구매일), frequency (월평균 구매 횟수), monetary (월평균 결제 금액)wow_membership (와우 회원 여부), rocket_delivery_ratio (전체 구매 중 로켓배송 비율), cs_inquiry_count (최근 3개월 고객센터 클레임 횟수)① 분석 파이프라인 모듈화 (Modularization) 이커머스 고객 로그가 지속적으로 적재된다고 가정하고, 배치(Batch) 형태로 돌아갈 수 있는 분류 프레임워크 구성:
def run_churn_prediction():
def run_rfm_segmentation(): (선택 확장)
② 전처리 핵심 전략
customer_idgender, wow_membership → One-Hot 또는 Label Encodingmonetary, app_usage_time 등 값의 편차가 큰 변수는 RobustScaler나 StandardScaler 적용 (트리 모델 위주라면 생략 가능하지만 파이프라인 정립을 위해 포함)SMOTE를 활용한 오버샘플링이나 알고리즘 내 class_weight='balanced' 적용 필수.③ ML vs DL 대조군 구성 (성능 + 해석 가능성 비교)
Logistic Regression: 변수 간의 선형적 관계 파악 및 베이스라인.RandomForest: 기본 트리 앙상블.LightGBM / XGBoost: 정형 데이터 및 대용량 이커머스 데이터에서 가장 빠르고 성능이 높은 최종 후보.