Tabular deep learning на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем DL для tabular

XGBoost / LightGBM dominate tabular. DL pretty slow / weak в этой нише.

But research progresses. Some scenarios DL emerging better:

  • Very large datasets.
  • Multi-task learning.
  • Pre-training + transfer.
  • Mixed modality (tabular + text + image).

TabNet

Google 2019. Attention-based feature selection per sample.

Different samples → different features attended.

Pros: interpretable, sample-level feature importance.

Cons: не consistently beats LightGBM на benchmarks.

FT-Transformer

Yandex 2021. Standard Transformer applied к tabular.

Tokens — features. Each feature has embedding. Standard self-attention.

Input: [age=30, income=50k, country=RU]
Tokens: [emb_age(30), emb_income(50k), emb_country(RU)]
→ Transformer
→ Predicted (e.g., classification)

Сompetitive с GBM на larger datasets.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

SAINT

Self-Attention and Intersample Attention. 2021. Combines:

  • Self-attention (между features).
  • Inter-sample attention (между rows).

State-of-art tabular deep на 2023.

Vs gradient boosting

GBM (LightGBM/XGB/CatBoost) DL tabular
Small dataset Wins Loses
Large dataset (>1M) Sometimes ties Sometimes wins
Speed train Fast Slow
Interpretability OK Variable
Multi-task Hard Native
Mixed modalities Hard Native

Practical advice: GBM первый baseline. DL — explore только если specific reason (multi-task, mixed modality, huge data).

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на работах Arik 2019 (TabNet), Gorishniy 2021 (FT-Transformer).


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.