sklearn для аналитика: ML без боли (вводный гайд)

40 задач Pyodide в браузере С эталонными решениями 2026 — с реальных собесов

sklearn — стандартная ML-библиотека Python. На senior-аналитика и Data Scientist спрашивают: «обучи модель оттока», «оцени важность фичей», «когда использовать Random Forest vs Logistic Regression». Здесь введение в sklearn для аналитика — от базовых fit/predict до cross-validation и feature_importances_. Все задачи решаются в браузере через Pyodide — sklearn полностью работает.

Начать решать задачи →

Все задачи на «sklearn для аналитика» (40)

Стандартизация признаков Лёгкая Тинькофф StandardScaler preprocessing нормализация
MinMax нормализация Лёгкая Ozon MinMaxScaler preprocessing нормализация
OneHotEncoder для категорий Средняя Яндекс OneHotEncoder preprocessing категориальные признаки
LabelEncoder для меток Лёгкая Wildberries LabelEncoder preprocessing категориальные признаки
Разделение на train/test Лёгкая Сбер train_test_split preprocessing валидация
Логистическая регрессия: обучение Средняя Тинькофф LogisticRegression classification predict
Accuracy модели Лёгкая Авито accuracy_score metrics classification
Classification report Средняя Яндекс classification_report precision recall f1
Матрица ошибок Лёгкая МТС confusion_matrix FP FN classification
ROC-AUC метрика Средняя Сбер roc_auc_score ROC AUC classification
Линейная регрессия: обучение Средняя Avito LinearRegression regression predict
R2 score регрессии Лёгкая Циан r2_score regression metrics
MAE и MSE ошибки Лёгкая Ozon MAE MSE regression metrics
Коэффициенты модели Средняя ДомКлик coef_ intercept_ интерпретация regression
Предсказание для набора Лёгкая Яндекс predict train_test regression
KMeans кластеризация Средняя Ozon KMeans clustering fit_predict
Предсказание кластера Лёгкая Wildberries KMeans predict clustering
Silhouette score Средняя Тинькофф silhouette_score clustering evaluation
Метод локтя Средняя Яндекс elbow inertia KMeans подбор k
Центры кластеров Лёгкая Сбер cluster_centers_ KMeans clustering
Кросс-валидация Средняя Тинькофф cross_val_score cv evaluation
GridSearchCV: подбор параметров Сложная Яндекс GridSearchCV hyperparameters tuning
Learning curve Сложная МТС learning_curve overfitting evaluation
Feature importances Средняя Сбер feature_importances_ RandomForest interpretation
Pipeline: преобразование + модель Сложная Авито Pipeline StandardScaler LogisticRegression
Random Forest: feature importance Средняя Сбер RandomForest feature_importance classification
Cross-validation: оценка модели Средняя Яндекс cross_validation accuracy model_evaluation
Pipeline: препроцессинг + модель Сложная Тинькофф Pipeline imputer preprocessing data_leakage
KMeans кластеризация Средняя Ozon KMeans clustering unsupervised
Confusion Matrix и classification report Лёгкая Сбер confusion_matrix precision recall f1
GridSearchCV: подбор гиперпараметров Сложная Яндекс GridSearchCV hyperparameter_tuning DecisionTree
PCA: снижение размерности Сложная Тинькофф PCA dimensionality_reduction StandardScaler
ROC-AUC: оценка бинарного классификатора Средняя VK ROC_AUC threshold f1_score classification
Линейная регрессия: предсказание выручки Средняя Wildberries linear_regression r2 prediction
K-Means кластеризация клиентов Средняя Авито kmeans clustering standardscaler
Train/test split и метрики классификации Лёгкая МТС train_test_split classification metrics
Decision Tree: важность признаков Средняя Самокат decision_tree feature_importance regression
Cross-validation: оценка устойчивости модели Сложная Lamoda cross_validation random_forest model_evaluation
PCA: снижение размерности для визуализации Сложная Мегафон pca dimensionality_reduction visualization
Confusion matrix и ROC-AUC Сложная Delivery Club confusion_matrix roc_auc f1_score classification

FAQ: частые вопросы про sklearn для аналитика

sklearn — это для ML-инженеров, а не для аналитиков?

Раньше — да, сейчас — нет. На любом мid+ собесе аналитика ждут что ты можешь обучить модель churn-prediction или сделать сегментацию через KMeans. ML стал частью базовой аналитики, как SQL.

fit / predict / fit_predict — в чём разница?

.fit(X, y) — обучает модель на данных. .predict(X_new) — предсказывает на новых данных. .fit_predict(X) — обучает И сразу предсказывает (используется в кластеризации, где «обучения» в традиционном смысле нет).

Random Forest или Logistic Regression на собесе?

Зависит от задачи: если нужна интерпретируемость и линейные зависимости — LogReg. Если нелинейные паттерны и не критична интерпретируемость — Random Forest или Gradient Boosting (XGBoost/LightGBM).

Что такое cross-validation?

Деление данных на K частей, обучение на K-1, валидация на 1, повтор K раз, усреднение метрик. Даёт более стабильную оценку качества модели чем одна train/test-разбивка. В sklearn: cross_val_score, KFold, StratifiedKFold.

feature_importance — как использовать?

После .fit() у tree-based моделей есть .feature_importances_ (Random Forest, GBT). Для линейных — .coef_ (но нужна стандартизация фичей). На собесе спросят «как объяснить бизнесу что повлияло на отток» — это именно feature importance.

Связанные темы Python

Pandas: основы · Pandas groupby · Pandas merge / join · Pandas: временные ряды · NumPy векторизация · scipy: A/B-тесты · Графики: matplotlib / seaborn

Связанные темы SQL

Retention-анализ · RFM-анализ

Открыть весь Python-тренажёр (561 задач) →