Собеседование на Data Scientist в Т-Банке (Тинькофф)

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Т-Банк — особенный работодатель для DS

Т-Банк (Тинькофф) — один из сильнейших ML-работодателей среди банков. DS-направление включает: кредитный скоринг (PD, LGD, EAD моделирование), fraud detection, рекомендательные системы продуктов, churn prediction, anti-money-laundering, NLP для саппорта. Каждое направление — отдельная команда с собственной методологией.

Особенность: финтех-домен с жёсткой регуляторной нагрузкой. ML-модели проходят review от риск-команды и compliance, должны быть интерпретируемыми (часто XGBoost вместо deep learning), документироваться. Это значит, DS в Т-Банке умеет не только обучать модели, но и обосновывать их перед бизнесом и регулятором. Актуальные вакансии — на странице карьеры Т-Банка.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация. Особенности Т-Банка:

  • Опыт с финтех / скоринг / fraud / классический ML на табличных данных
  • Готовность работать с регуляторными ограничениями
  • Знание инструментов (Python, scikit-learn, CatBoost, SQL)

2. SQL и Python (45-60 минут)

Live-coding: SQL на финансовых данных (когорты, retention, агрегаты по транзакциям) и Python (pandas, numpy, базовый ML pipeline). Подготовка — SQL, Python.

3. ML-теория и метрики (60 минут)

Главный этап. Темы:

  • Логистическая регрессия для скоринга, как интерпретировать веса
  • Gradient boosting (XGBoost/LightGBM/CatBoost), tuning, регуляризация
  • Метрики: Gini coefficient (~AUC), KS, PD calibration, precision/recall
  • Несбалансированные классы (fraud, churn): техники, метрики, выборка
  • Стабильность модели во времени — PSI, drift detection
  • Causal inference для оценки эффектов

Подготовка: статистика, DS hub.

4. ML system design и продуктовый кейс (60 минут)

«Спроектируй модель скоринга для нового кредитного продукта», «как поймёшь, что fraud-модель стала хуже», «как замеришь эффект новой PD-модели на потери».

Структура: данные → фичи → модель → метрика → A/B → регуляторика → MLOps.

5. Поведенческое (45 минут)

STAR-вопросы. Т-Банк ценит самостоятельность и инициативу.

6. Финал с лидом

Стратегический разговор.

Что Т-Банк ценит в DS

  • Финтех-контекст. Понимаешь, что такое PD, LGD, EAD, RWA, NIM
  • Интерпретируемость. В скоринге и fraud модель должна объясняться. SHAP, feature importance, partial dependence — рабочие инструменты
  • Стабильность. Модель должна работать одинаково через год после деплоя. Drift detection, monitoring, retraining — обязательны
  • Метрики бизнеса. Хорошая ML-метрика — это не цель, а средство. Цель — bad rate, approval rate, profit per loan
  • Скорость. Релизы недельные, эксперименты постоянные

Типичные задачи и кейсы

  • «У нас Gini скоринга 0.6. Стоит ли вкладываться в улучшение до 0.7?» (фокус — связь модели с бизнес-метрикой)
  • «Спроектируй модель fraud detection для новых клиентов»
  • «Через 6 месяцев после деплоя PSI вырос с 0.05 до 0.15. План действий?»
  • «Кто-то из стейкхолдеров требует включить переменную X. Модель ухудшается. Как обсуждать?»
  • «Объясни кредитному офицеру, почему ML-модель отказала клиенту»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. Классический ML. Logistic regression, gradient boosting, регуляризация, метрики. Глубоко.
  2. Финтех-домен. PD, LGD, EAD, NIM, Gini, PSI. Изучи open-source материалы.
  3. Интерпретируемость. SHAP, feature importance, partial dependence plots.
  4. A/B и causal inference. Эффект новой модели — это не offline-метрика, а business impact в реальности.
  5. SQL и Python. На уровне Senior. Тренируйся в SQL-разделе.
  6. STAR-истории. 6-8 готовых сценариев.

Частые ошибки

  • Зацикливаться на deep learning. В скоринге и fraud классические алгоритмы (CatBoost, logistic regression) часто лучше — интерпретируемее
  • Игнорировать stability. Модель с AUC 0.85, которая через 6 месяцев деградирует до 0.7 — плохая модель
  • Не учитывать регуляторику. В банке нельзя использовать любую переменную (пол, раса, возраст — запрещены)
  • Зубрить формулы без бизнес-смысла. На собесе спросят, как Gini связан с прибылью банка
  • Слабая интерпретация. Если ты не можешь объяснить решение модели — модель не пройдёт в production

Связанные темы

FAQ

Сколько этапов в собеседовании на DS в Т-Банке?

Обычно 4-6: рекрутер → SQL/Python → ML-теория → ML system design → поведенческое → финал. Срок 3-5 недель.

Нужен ли финтех-опыт?

Желателен, но не критичен. Если приходишь из e-commerce/SaaS — упор на готовность освоить домен и понимание классического ML на табличных данных.

Какие алгоритмы спрашивают чаще всего?

Logistic regression (must-know), gradient boosting (CatBoost/LightGBM/XGBoost), random forest, SVM. Deep learning — редко, в отдельных командах (NLP, CV).

Спрашивают ли deep learning?

В DS-командах банка чаще нет. Исключения: NLP-команды (саппорт-чат, документы), CV-команды (документы клиентов). Уточняй на скрининге.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.