7 мая 2026 г.·3 мин чтения

AutoML на собеседовании Data Scientist

Q: AutoML заменит DS?

Нет — automates routine. Decisions, problem formulation, communication остаются с DS.

Q: Это официальная информация?

Нет. Статья основана на документации H2O / AutoGluon / FLAML. --- Тренируйте Data Science — [откройте тренажёр](https://t.me/kariernik_bot/app?startapp=web_blog_automl-na-sobesedovanii-ds) с 1500+ вопросами для собесов.

Проверь себя · 1/3разбор после ответа

Для разницы долей p_treat - p_control вы построили 95% доверительный интервал, и он целиком выше 0. Что это означает для двустороннего теста на уровне alpha = 0.05?

Содержание:

Зачем разбирать на собесе
Что делает AutoML
H2O AutoML
AutoGluon
FLAML
Ограничения
Когда применять
Частые ошибки
Связанные темы
FAQ

Зачем разбирать на собесе

AutoML — модный тренд, но не панацея. На собесе DS: «когда AutoML», «ограничения», «как сравнить с manual ML».

Что делает AutoML

Автоматизирует:

Feature engineering (encoding, missing handling).
Model selection (deep learning + GBM + linear).
Hyperparameter tuning.
Ensembling (stacking).

Цель. За T минут построить best possible model на дане dataset, без manual tuning.

H2O AutoML

H2O Driverless AI / open source H2O.ai.

import h2o
from h2o.automl import H2OAutoML

aml = H2OAutoML(max_runtime_secs=3600, max_models=20)
aml.train(x=features, y=target, training_frame=df)

leaderboard = aml.leaderboard
best = aml.leader

Включает: GBM, RF, Deep Learning, GLM, XGBoost, ensemble.

AutoGluon

Amazon's AutoGluon Tabular.

from autogluon.tabular import TabularPredictor

predictor = TabularPredictor(label='target').fit(train_data, time_limit=3600)
predictions = predictor.predict(test_data)

Особенности:

Multi-layer stacking — несколько уровней ensemble.
Поддерживает text / image features.
Часто на 1-3% выше LightGBM на benchmarks.

FLAML

Microsoft's FLAML — fast and lightweight.

from flaml import AutoML

automl = AutoML()
automl.fit(X_train, y_train, task='classification', time_budget=600)

Optimized под limited budgets — выдаёт хорошее качество на маленьких temps.

Другие:

TPOT — genetic programming.
Auto-sklearn.
PyCaret.
Vertex AI AutoML, Azure AutoML, AWS SageMaker Autopilot — managed.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Ограничения

Domain knowledge. AutoML не может придумать domain-specific features (RFM для retail, time-window для transactional).

Data quality. AutoML принимает входные данные as-is. Если есть data quality issues — модель плохая.

Interpretability. Stacked ensembles сложнее объяснить.

Reproducibility. Каждый run выдаёт разный leaderboard.

Production friendliness. Latency, model size часто не оптимизированы.

Бизнес-интуиция. AutoML оптимизирует metric, не business value.

Когда применять

Подходит:

Quick baseline на новом домене.
Junior DS без deep ML экспертизы.
Tabular задачи с хорошим datasettом.
Hackathons / MVP.

Не подходит:

Custom architectures (vision, NLP).
Strict latency / size requirements.
Когда interpretability mandatory.
High-stakes (legal, medical).
Senior DS — ручной tuning часто лучше.

Частые ошибки

Считать AutoML заменой DS. Feature engineering, problem formulation, evaluation — всё ещё на DS.

Без validation strategy. Auto stratify не всегда правильно — для time series нужен time split.

Не тестировать в проде. Best на validation ≠ best на real traffic.

Игнорировать domain experts. AutoML model + bad features < manual model + good features.

Связанные темы

FAQ

AutoML заменит DS?