Раньше — да, сейчас — нет. На любом мid+ собесе аналитика ждут что ты можешь обучить модель churn-prediction или сделать сегментацию через KMeans. ML стал частью базовой аналитики, как SQL.
.fit(X, y) — обучает модель на данных. .predict(X_new) — предсказывает на новых данных. .fit_predict(X) — обучает И сразу предсказывает (используется в кластеризации, где «обучения» в традиционном смысле нет).
Зависит от задачи: если нужна интерпретируемость и линейные зависимости — LogReg. Если нелинейные паттерны и не критична интерпретируемость — Random Forest или Gradient Boosting (XGBoost/LightGBM).
Деление данных на K частей, обучение на K-1, валидация на 1, повтор K раз, усреднение метрик. Даёт более стабильную оценку качества модели чем одна train/test-разбивка. В sklearn: cross_val_score, KFold, StratifiedKFold.
После .fit() у tree-based моделей есть .feature_importances_ (Random Forest, GBT). Для линейных — .coef_ (но нужна стандартизация фичей). На собесе спросят «как объяснить бизнесу что повлияло на отток» — это именно feature importance.
Pandas: основы · Pandas groupby · Pandas merge / join · Pandas time series · NumPy векторизация · scipy: A/B-тесты · Графики: matplotlib / seaborn