Собеседование на Data Scientist в Qiwi
Содержание:
Почему Qiwi — особенный работодатель для DS
Qiwi — один из крупнейших российских платёжных операторов, исторически известный QIWI-кошельком, платёжными терминалами и связанными финтех-сервисами. Несмотря на регуляторную турбулентность последних лет, компания остаётся важным игроком на рынке P2P-платежей и B2C-payment-сервисов. Для Data Scientist это среда классического payment-аналитики: высокая частота транзакций, обязательный real-time антифрод, регуляторно-жёсткий AML-комплайенс, и одновременно — продуктовый ML вокруг retention и удержания клиентов в кошельке.
ML-домены: антифрод в транзакциях (real-time inference на каждую операцию), AML / KYC-аналитика (соответствие требованиям ЦБ по ПОД/ФТ), churn по кошельку и регулярным сервисам, прогноз LTV клиента, segmentation, recommendation сервисов (например, дополнительные платёжные услуги), NLP на текстах обращений в саппорт, performance-маркетинг и attribution. Стек: Python, scikit-learn, CatBoost / XGBoost, PyTorch для NLP и графовых задач, PostgreSQL, ClickHouse, Hadoop / Spark для больших объёмов транзакций, Kafka для real-time стрима, Airflow, MLflow.
Актуальные вакансии — на hh.ru и сайте Qiwi.
Информация основана на публичных источниках и опыте кандидатов. Команды Qiwi используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
Цикл 3–5 недель и включает 4–6 этапов. Процесс корпоративный, но менее формализованный, чем у крупных банков — payment-индустрия любит быстрые итерации.
1. HR-скрининг (30–45 минут)
Рекрутер проверяет: production-опыт DS (1.5+ года), причины смены работы, ожидания, готовность работать в регуляторно-чувствительной среде. Опыт в payment, антифроде, банковском скоринге — большой плюс. На скрининге часто спрашивают про знакомство с AML-вокабуляром (что такое SAR, KYC-уровни) и готовность к работе с большими объёмами лог-данных. Подготовь питч на 60–90 секунд про предыдущие проекты с акцентом на real-time inference и регуляторно-чувствительные модели.
2. Тестовое задание (3–5 дней)
Часто даётся: датасет с историей транзакций, нужно построить модель fraud или сегментации клиентов. Сильные кандидаты обсуждают real-time inference constraints и graph-подходы для выявления связанных аккаунтов. Особенность тестового — высокий стандарт на качество обработки несбалансированных классов (fraud это <1% трафика) и обоснование выбора метрики под бизнес-кейс. Сдача — Jupyter Notebook + краткое сопроводительное письмо с интерпретацией результатов.
3. ML / DS-теория (60–90 минут)
С senior DS из команды. Темы: классика (бустинги, регуляризация, метрики бинарной классификации, calibration), graph ML (для антифрода), survival для churn, time-series для прогноза трафика, sampling-стратегии для несбалансированных классов (fraud — это <1% трафика).
Подготовка: Классическая ML на собесе, Метрики модели.
4. Python + SQL live-coding (60–90 минут)
Live: 1–2 алгоритмические задачи (LeetCode Medium), 1–2 на pandas / SQL по транзакционным данным. SQL обычно на ClickHouse / PostgreSQL — оконные функции, ratio-метрики, JOIN на больших таблицах транзакций. Готовиться плотно: payment даёт большие объёмы лог-данных.
Подготовка: Live-coding, SQL-собес.
5. ML system design + бизнес-кейс (60–90 минут)
Кейсы: «как ты бы построил real-time антифрод», «как обнаружить организованную fraud-группу через граф-сигналы», «как сегментировать клиентов для CRM-кампаний». Сильные ответы — где обсуждаются latency, false positive cost, регуляторные ограничения.
Подготовка: ML system design.
6. Поведенческое + AML compliance (30–45 минут)
С тимлидом и менеджером. STAR-формат. Дополнительно — проверка готовности работать с регулятором (ЦБ) и понимания AML-требований. Часть разговора — про опыт работы с чувствительными данными, готовность к compliance-аудиту моделей, способность объяснить решение модели представителю compliance-команды или регуляторному инспектору. Подготовь STAR-историю про конфликт между скоростью продуктовой разработки и регуляторными ограничениями — это типичный вопрос для middle+ позиций.
Особенности по командам
Antifraud & Real-time Inference. Главная и характерная для платёжного оператора команда: real-time детекция fraud в транзакциях (мисс-секунды на каждое решение), сбалансированный false-positive / false-negative с учётом стоимости каждой ошибки, model-monitoring в проде. Mix классики (CatBoost / XGBoost) и графовых подходов (community detection, graph neural networks для связанных аккаунтов). Подойдёт DS с background в real-time системах и интересом к security / fraud-аналитике.
AML / KYC Compliance. Регуляторно-жёсткая зона: детекция отмывания, suspicious activity reporting (SAR), мониторинг подозрительных паттернов транзакций, KYC-моделирование (оценка риска клиента при регистрации). Тесная связка с compliance-отделом. Подойдёт DS, готовый работать в жёстко регулируемой среде с обязательным аудитом моделей.
Churn & Retention. Прогноз ухода клиента из кошелька / сервиса, реактивация спящих, оптимизация push-кампаний.
Customer LTV & Cross-Sell. LTV-прогноз, propensity-to-buy для дополнительных сервисов.
Marketing & Acquisition. Атрибуция, прогноз ROI, скоринг лидов, performance-маркетинг.
Operational Analytics. Меньше команда: аналитика терминальной сети (где были у Qiwi), оптимизация работы саппорта, прогноз нагрузки на колл-центр.
Risk-models for Lending. Уникальная для payment-оператора зона, когда сервис начинает предлагать кредитные продукты: скоринг под мини-кредиты, behavioural scoring на платёжной истории, оценка кредитоспособности по поведению в кошельке.
Recommendation & Cross-Sell. Рекомендации платёжных сервисов и услуг, оптимизация push-уведомлений, персонализация лендингов и e-mail-кампаний для сегментов пользователей.
Settlement & Reconciliation Analytics. Меньше команда: аналитика расчётов с банками-партнёрами, оптимизация settlement-cycle, обнаружение аномалий в reconciliation. Подойдёт DS с интересом к operational-analytics.
Что Qiwi ценит в DS
Опыт работы с real-time системами. Antifraud работает в мисс-секунды. Strong: «обучил CatBoost для антифрода с feature caching стратегией, latency 95p < 80ms; в A/B на 20% трафика за 30 дней fraud-rate снизился на 2.1pp при false positive rate стабильном; бизнес-эффект — около +X млн руб. saved per month». Цифры и обсуждение latency обязательны.
Опыт работы с регулятором. AML и KYC требования ЦБ — must-know для compliance-команд. SAR-фреймворк, KYC-уровни — стандарт.
Graph ML mindset. Fraud — это часто связанные счета / устройства / IP. Strong-кандидат сразу обсуждает graph-подходы как первого выбора для организованного fraud.
Кросс-функциональная адекватность. Payment-индустрия плотно работает с compliance, IT-безопасностью, операционным центром. Готовность объяснять модели не-тех коллегам — критично.
Готовность к жёстким false-positive constraints. В fraud-моделях не все ошибки одинаковы: false negative = потерянные деньги, false positive = недовольный клиент. Strong-кандидат сразу обсуждает business-aware cost-sensitive learning.
Кросс-функциональная адекватность. Payment-индустрия плотно работает с compliance, IT-безопасностью, операционным центром, регулятором. Готовность объяснять модели не-тех коллегам и работать в формальных процессах согласования — критично. Strong-кандидат готовит STAR-истории про разрешение конфликтов между скоростью разработки и регуляторной строгостью.
Долгосрочное мышление. Fraud-модели работают годами, и threat actors постоянно меняют тактики. Strong-кандидат сразу обсуждает план monitoring adversarial drift, переобучения и fall-back-стратегии на случай резких сдвигов в распределении атак.
Как готовиться: план
Минимум 5–7 недель. Неделя 1–2: ML-теория (классика, бустинги, calibration, graph ML basics). Неделя 3: LeetCode + pandas (50 задач). Неделя 4: SQL — оконки, complex JOIN, time-series queries. Неделя 5: real-time системы (latency-aware feature engineering, online learning), AML basics. Неделя 6: ML system design — 4 кейса (real-time fraud, AML, churn, cross-sell). Неделя 7: mock-интервью.
Для тренировки реальных вопросов с DS-собесов — открывай Карьерник: 1500+ задач по SQL, Python, A/B-тестам, статистике, продуктовой аналитике и ML по темам и сложности.
Частые ошибки
Первая — игнорирование real-time constraints. Если ты на собесе говоришь про «возьмём deep network», нужно сразу обсудить latency.
Вторая — слабая работа с несбалансированными классами. Fraud это 0.1–1% трафика. Подходы (SMOTE, class weights, focal loss, threshold tuning) — must-know.
Третья — отсутствие graph ML mindset. Fraud — связные структуры. Если кандидат предлагает только классический tabular ML, теряет важное преимущество.
Четвёртая — игнорирование regulatory-стороны AML. ЦБ-требования жёсткие, и кандидат, не различающий SAR vs KYC vs AML-tier-1/2/3, выглядит сыро для compliance-команд.
Пятая — нет цифр в кейсах. Fraud-rate, false positive rate, saved money — must.
Связанные темы
- Собеседование на Data Scientist в Тинькофф
- Собеседование на Data Scientist в Альфа-Банке
- Собеседование на Data Scientist — гайд
- A/B и causal inference
FAQ
Сколько этапов в собесе DS в Qiwi?
4–6 этапов: HR-скрининг, тестовое задание, ML / DS-теория, Python + SQL live-coding, ML system design + бизнес-кейс, поведенческое + AML compliance. Цикл — 3–5 недель.
Нужен ли опыт в payment-индустрии?
Желателен. Если нет — выделите 1–2 недели на изучение AML basics, KYC-уровней, real-time системного дизайна для антифрода.
Какой грейд DS подходит?
Middle и senior — основные. Junior-роли встречаются, но через тестовое и работу под наставничеством senior DS в команде fraud / compliance.
Какой английский нужен?
B1–B2 минимум. Большая часть документации по AML / fraud-detection — на английском.
Сколько платят DS в Qiwi?
Зависит от грейда. Для middle DS — на уровне крупных финтехов, для senior — выше. Antifraud и AML команды обычно платят на премиум-грейде из-за специфики и регуляторной ответственности.
Какие книги/курсы посмотреть?
По fraud-detection: статьи Stripe и PayPal по real-time fraud engines (есть в открытом доступе). По graph ML: Hamilton «Graph Representation Learning». По AML: материалы ЦБ и ACAMS-курсов для базового понимания регуляторного контекста.