AutoML на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем разбирать на собесе

AutoML — модный тренд, но не панацея. На собесе DS: «когда AutoML», «ограничения», «как сравнить с manual ML».

Что делает AutoML

Автоматизирует:

  • Feature engineering (encoding, missing handling).
  • Model selection (deep learning + GBM + linear).
  • Hyperparameter tuning.
  • Ensembling (stacking).

Цель. За T минут построить best possible model на дане dataset, без manual tuning.

H2O AutoML

H2O Driverless AI / open source H2O.ai.

import h2o
from h2o.automl import H2OAutoML

aml = H2OAutoML(max_runtime_secs=3600, max_models=20)
aml.train(x=features, y=target, training_frame=df)

leaderboard = aml.leaderboard
best = aml.leader

Включает: GBM, RF, Deep Learning, GLM, XGBoost, ensemble.

AutoGluon

Amazon's AutoGluon Tabular.

from autogluon.tabular import TabularPredictor

predictor = TabularPredictor(label='target').fit(train_data, time_limit=3600)
predictions = predictor.predict(test_data)

Особенности:

  • Multi-layer stacking — несколько уровней ensemble.
  • Поддерживает text / image features.
  • Часто на 1-3% выше LightGBM на benchmarks.

FLAML

Microsoft's FLAML — fast and lightweight.

from flaml import AutoML

automl = AutoML()
automl.fit(X_train, y_train, task='classification', time_budget=600)

Optimized под limited budgets — выдаёт хорошее качество на маленьких temps.

Другие:

  • TPOT — genetic programming.
  • Auto-sklearn.
  • PyCaret.
  • Vertex AI AutoML, Azure AutoML, AWS SageMaker Autopilot — managed.
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Ограничения

Domain knowledge. AutoML не может придумать domain-specific features (RFM для retail, time-window для transactional).

Data quality. AutoML принимает входные данные as-is. Если есть data quality issues — модель плохая.

Interpretability. Stacked ensembles сложнее объяснить.

Reproducibility. Каждый run выдаёт разный leaderboard.

Production friendliness. Latency, model size часто не оптимизированы.

Бизнес-интуиция. AutoML оптимизирует metric, не business value.

Когда применять

Подходит:

  • Quick baseline на новом домене.
  • Junior DS без deep ML экспертизы.
  • Tabular задачи с хорошим datasettом.
  • Hackathons / MVP.

Не подходит:

  • Custom architectures (vision, NLP).
  • Strict latency / size requirements.
  • Когда interpretability mandatory.
  • High-stakes (legal, medical).
  • Senior DS — ручной tuning часто лучше.

Частые ошибки

Считать AutoML заменой DS. Feature engineering, problem formulation, evaluation — всё ещё на DS.

Без validation strategy. Auto stratify не всегда правильно — для time series нужен time split.

Не тестировать в проде. Best на validation ≠ best на real traffic.

Игнорировать domain experts. AutoML model + bad features < manual model + good features.

Связанные темы

FAQ

AutoML заменит DS?

Нет — automates routine. Decisions, problem formulation, communication остаются с DS.

Это официальная информация?

Нет. Статья основана на документации H2O / AutoGluon / FLAML.


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.