Собеседование на Data Scientist в Т-Банке (Тинькофф)
Содержание:
Почему Т-Банк — особенный работодатель для DS
Т-Банк (Тинькофф) — один из сильнейших ML-работодателей среди банков. DS-направление включает: кредитный скоринг (PD, LGD, EAD моделирование), fraud detection, рекомендательные системы продуктов, churn prediction, anti-money-laundering, NLP для саппорта. Каждое направление — отдельная команда с собственной методологией.
Особенность: финтех-домен с жёсткой регуляторной нагрузкой. ML-модели проходят review от риск-команды и compliance, должны быть интерпретируемыми (часто XGBoost вместо deep learning), документироваться. Это значит, DS в Т-Банке умеет не только обучать модели, но и обосновывать их перед бизнесом и регулятором. Актуальные вакансии — на странице карьеры Т-Банка.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Особенности Т-Банка:
- Опыт с финтех / скоринг / fraud / классический ML на табличных данных
- Готовность работать с регуляторными ограничениями
- Знание инструментов (Python, scikit-learn, CatBoost, SQL)
2. SQL и Python (45-60 минут)
Live-coding: SQL на финансовых данных (когорты, retention, агрегаты по транзакциям) и Python (pandas, numpy, базовый ML pipeline). Подготовка — SQL, Python.
3. ML-теория и метрики (60 минут)
Главный этап. Темы:
- Логистическая регрессия для скоринга, как интерпретировать веса
- Gradient boosting (XGBoost/LightGBM/CatBoost), tuning, регуляризация
- Метрики: Gini coefficient (~AUC), KS, PD calibration, precision/recall
- Несбалансированные классы (fraud, churn): техники, метрики, выборка
- Стабильность модели во времени — PSI, drift detection
- Causal inference для оценки эффектов
Подготовка: статистика, DS hub.
4. ML system design и продуктовый кейс (60 минут)
«Спроектируй модель скоринга для нового кредитного продукта», «как поймёшь, что fraud-модель стала хуже», «как замеришь эффект новой PD-модели на потери».
Структура: данные → фичи → модель → метрика → A/B → регуляторика → MLOps.
5. Поведенческое (45 минут)
STAR-вопросы. Т-Банк ценит самостоятельность и инициативу.
6. Финал с лидом
Стратегический разговор.
Что Т-Банк ценит в DS
- Финтех-контекст. Понимаешь, что такое PD, LGD, EAD, RWA, NIM
- Интерпретируемость. В скоринге и fraud модель должна объясняться. SHAP, feature importance, partial dependence — рабочие инструменты
- Стабильность. Модель должна работать одинаково через год после деплоя. Drift detection, monitoring, retraining — обязательны
- Метрики бизнеса. Хорошая ML-метрика — это не цель, а средство. Цель — bad rate, approval rate, profit per loan
- Скорость. Релизы недельные, эксперименты постоянные
Типичные задачи и кейсы
- «У нас Gini скоринга 0.6. Стоит ли вкладываться в улучшение до 0.7?» (фокус — связь модели с бизнес-метрикой)
- «Спроектируй модель fraud detection для новых клиентов»
- «Через 6 месяцев после деплоя PSI вырос с 0.05 до 0.15. План действий?»
- «Кто-то из стейкхолдеров требует включить переменную X. Модель ухудшается. Как обсуждать?»
- «Объясни кредитному офицеру, почему ML-модель отказала клиенту»
Как готовиться: план
- Классический ML. Logistic regression, gradient boosting, регуляризация, метрики. Глубоко.
- Финтех-домен. PD, LGD, EAD, NIM, Gini, PSI. Изучи open-source материалы.
- Интерпретируемость. SHAP, feature importance, partial dependence plots.
- A/B и causal inference. Эффект новой модели — это не offline-метрика, а business impact в реальности.
- SQL и Python. На уровне Senior. Тренируйся в SQL-разделе.
- STAR-истории. 6-8 готовых сценариев.
Частые ошибки
- Зацикливаться на deep learning. В скоринге и fraud классические алгоритмы (CatBoost, logistic regression) часто лучше — интерпретируемее
- Игнорировать stability. Модель с AUC 0.85, которая через 6 месяцев деградирует до 0.7 — плохая модель
- Не учитывать регуляторику. В банке нельзя использовать любую переменную (пол, раса, возраст — запрещены)
- Зубрить формулы без бизнес-смысла. На собесе спросят, как Gini связан с прибылью банка
- Слабая интерпретация. Если ты не можешь объяснить решение модели — модель не пройдёт в production
Связанные темы
- Собеседование на Data Scientist
- Собеседование на DS в Сбер AI
- Собеседование на DS в Яндексе
- Causal inference: причинность vs корреляция
- Accuracy vs F1: какую метрику выбрать
FAQ
Сколько этапов в собеседовании на DS в Т-Банке?
Обычно 4-6: рекрутер → SQL/Python → ML-теория → ML system design → поведенческое → финал. Срок 3-5 недель.
Нужен ли финтех-опыт?
Желателен, но не критичен. Если приходишь из e-commerce/SaaS — упор на готовность освоить домен и понимание классического ML на табличных данных.
Какие алгоритмы спрашивают чаще всего?
Logistic regression (must-know), gradient boosting (CatBoost/LightGBM/XGBoost), random forest, SVM. Deep learning — редко, в отдельных командах (NLP, CV).
Спрашивают ли deep learning?
В DS-командах банка чаще нет. Исключения: NLP-команды (саппорт-чат, документы), CV-команды (документы клиентов). Уточняй на скрининге.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.