AutoML на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
AutoML — модный тренд, но не панацея. На собесе DS: «когда AutoML», «ограничения», «как сравнить с manual ML».
Что делает AutoML
Автоматизирует:
- Feature engineering (encoding, missing handling).
- Model selection (deep learning + GBM + linear).
- Hyperparameter tuning.
- Ensembling (stacking).
Цель. За T минут построить best possible model на дане dataset, без manual tuning.
H2O AutoML
H2O Driverless AI / open source H2O.ai.
import h2o
from h2o.automl import H2OAutoML
aml = H2OAutoML(max_runtime_secs=3600, max_models=20)
aml.train(x=features, y=target, training_frame=df)
leaderboard = aml.leaderboard
best = aml.leaderВключает: GBM, RF, Deep Learning, GLM, XGBoost, ensemble.
AutoGluon
Amazon's AutoGluon Tabular.
from autogluon.tabular import TabularPredictor
predictor = TabularPredictor(label='target').fit(train_data, time_limit=3600)
predictions = predictor.predict(test_data)Особенности:
- Multi-layer stacking — несколько уровней ensemble.
- Поддерживает text / image features.
- Часто на 1-3% выше LightGBM на benchmarks.
FLAML
Microsoft's FLAML — fast and lightweight.
from flaml import AutoML
automl = AutoML()
automl.fit(X_train, y_train, task='classification', time_budget=600)Optimized под limited budgets — выдаёт хорошее качество на маленьких temps.
Другие:
- TPOT — genetic programming.
- Auto-sklearn.
- PyCaret.
- Vertex AI AutoML, Azure AutoML, AWS SageMaker Autopilot — managed.
Ограничения
Domain knowledge. AutoML не может придумать domain-specific features (RFM для retail, time-window для transactional).
Data quality. AutoML принимает входные данные as-is. Если есть data quality issues — модель плохая.
Interpretability. Stacked ensembles сложнее объяснить.
Reproducibility. Каждый run выдаёт разный leaderboard.
Production friendliness. Latency, model size часто не оптимизированы.
Бизнес-интуиция. AutoML оптимизирует metric, не business value.
Когда применять
Подходит:
- Quick baseline на новом домене.
- Junior DS без deep ML экспертизы.
- Tabular задачи с хорошим datasettом.
- Hackathons / MVP.
Не подходит:
- Custom architectures (vision, NLP).
- Strict latency / size requirements.
- Когда interpretability mandatory.
- High-stakes (legal, medical).
- Senior DS — ручной tuning часто лучше.
Частые ошибки
Считать AutoML заменой DS. Feature engineering, problem formulation, evaluation — всё ещё на DS.
Без validation strategy. Auto stratify не всегда правильно — для time series нужен time split.
Не тестировать в проде. Best на validation ≠ best на real traffic.
Игнорировать domain experts. AutoML model + bad features < manual model + good features.
Связанные темы
- Hyperparameter tuning на собесе DS
- XGBoost vs LightGBM vs CatBoost для DS
- Feature Engineering на собесе DS
- Bagging vs Boosting на собесе DS
- Подготовка к собесу Data Scientist
FAQ
AutoML заменит DS?
Нет — automates routine. Decisions, problem formulation, communication остаются с DS.
Это официальная информация?
Нет. Статья основана на документации H2O / AutoGluon / FLAML.
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.