Собеседование на Data Scientist в Qiwi

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Qiwi — особенный работодатель для DS

Qiwi — один из крупнейших российских платёжных операторов, исторически известный QIWI-кошельком, платёжными терминалами и связанными финтех-сервисами. Несмотря на регуляторную турбулентность последних лет, компания остаётся важным игроком на рынке P2P-платежей и B2C-payment-сервисов. Для Data Scientist это среда классического payment-аналитики: высокая частота транзакций, обязательный real-time антифрод, регуляторно-жёсткий AML-комплайенс, и одновременно — продуктовый ML вокруг retention и удержания клиентов в кошельке.

ML-домены: антифрод в транзакциях (real-time inference на каждую операцию), AML / KYC-аналитика (соответствие требованиям ЦБ по ПОД/ФТ), churn по кошельку и регулярным сервисам, прогноз LTV клиента, segmentation, recommendation сервисов (например, дополнительные платёжные услуги), NLP на текстах обращений в саппорт, performance-маркетинг и attribution. Стек: Python, scikit-learn, CatBoost / XGBoost, PyTorch для NLP и графовых задач, PostgreSQL, ClickHouse, Hadoop / Spark для больших объёмов транзакций, Kafka для real-time стрима, Airflow, MLflow.

Актуальные вакансии — на hh.ru и сайте Qiwi.

Информация основана на публичных источниках и опыте кандидатов. Команды Qiwi используют разные процессы — уточняйте у рекрутера.

Этапы собеседования

Цикл 3–5 недель и включает 4–6 этапов. Процесс корпоративный, но менее формализованный, чем у крупных банков — payment-индустрия любит быстрые итерации.

1. HR-скрининг (30–45 минут)

Рекрутер проверяет: production-опыт DS (1.5+ года), причины смены работы, ожидания, готовность работать в регуляторно-чувствительной среде. Опыт в payment, антифроде, банковском скоринге — большой плюс. На скрининге часто спрашивают про знакомство с AML-вокабуляром (что такое SAR, KYC-уровни) и готовность к работе с большими объёмами лог-данных. Подготовь питч на 60–90 секунд про предыдущие проекты с акцентом на real-time inference и регуляторно-чувствительные модели.

2. Тестовое задание (3–5 дней)

Часто даётся: датасет с историей транзакций, нужно построить модель fraud или сегментации клиентов. Сильные кандидаты обсуждают real-time inference constraints и graph-подходы для выявления связанных аккаунтов. Особенность тестового — высокий стандарт на качество обработки несбалансированных классов (fraud это <1% трафика) и обоснование выбора метрики под бизнес-кейс. Сдача — Jupyter Notebook + краткое сопроводительное письмо с интерпретацией результатов.

3. ML / DS-теория (60–90 минут)

С senior DS из команды. Темы: классика (бустинги, регуляризация, метрики бинарной классификации, calibration), graph ML (для антифрода), survival для churn, time-series для прогноза трафика, sampling-стратегии для несбалансированных классов (fraud — это <1% трафика).

Подготовка: Классическая ML на собесе, Метрики модели.

4. Python + SQL live-coding (60–90 минут)

Live: 1–2 алгоритмические задачи (LeetCode Medium), 1–2 на pandas / SQL по транзакционным данным. SQL обычно на ClickHouse / PostgreSQL — оконные функции, ratio-метрики, JOIN на больших таблицах транзакций. Готовиться плотно: payment даёт большие объёмы лог-данных.

Подготовка: Live-coding, SQL-собес.

5. ML system design + бизнес-кейс (60–90 минут)

Кейсы: «как ты бы построил real-time антифрод», «как обнаружить организованную fraud-группу через граф-сигналы», «как сегментировать клиентов для CRM-кампаний». Сильные ответы — где обсуждаются latency, false positive cost, регуляторные ограничения.

Подготовка: ML system design.

6. Поведенческое + AML compliance (30–45 минут)

С тимлидом и менеджером. STAR-формат. Дополнительно — проверка готовности работать с регулятором (ЦБ) и понимания AML-требований. Часть разговора — про опыт работы с чувствительными данными, готовность к compliance-аудиту моделей, способность объяснить решение модели представителю compliance-команды или регуляторному инспектору. Подготовь STAR-историю про конфликт между скоростью продуктовой разработки и регуляторными ограничениями — это типичный вопрос для middle+ позиций.

Особенности по командам

Antifraud & Real-time Inference. Главная и характерная для платёжного оператора команда: real-time детекция fraud в транзакциях (мисс-секунды на каждое решение), сбалансированный false-positive / false-negative с учётом стоимости каждой ошибки, model-monitoring в проде. Mix классики (CatBoost / XGBoost) и графовых подходов (community detection, graph neural networks для связанных аккаунтов). Подойдёт DS с background в real-time системах и интересом к security / fraud-аналитике.

AML / KYC Compliance. Регуляторно-жёсткая зона: детекция отмывания, suspicious activity reporting (SAR), мониторинг подозрительных паттернов транзакций, KYC-моделирование (оценка риска клиента при регистрации). Тесная связка с compliance-отделом. Подойдёт DS, готовый работать в жёстко регулируемой среде с обязательным аудитом моделей.

Churn & Retention. Прогноз ухода клиента из кошелька / сервиса, реактивация спящих, оптимизация push-кампаний.

Customer LTV & Cross-Sell. LTV-прогноз, propensity-to-buy для дополнительных сервисов.

Marketing & Acquisition. Атрибуция, прогноз ROI, скоринг лидов, performance-маркетинг.

Operational Analytics. Меньше команда: аналитика терминальной сети (где были у Qiwi), оптимизация работы саппорта, прогноз нагрузки на колл-центр.

Risk-models for Lending. Уникальная для payment-оператора зона, когда сервис начинает предлагать кредитные продукты: скоринг под мини-кредиты, behavioural scoring на платёжной истории, оценка кредитоспособности по поведению в кошельке.

Recommendation & Cross-Sell. Рекомендации платёжных сервисов и услуг, оптимизация push-уведомлений, персонализация лендингов и e-mail-кампаний для сегментов пользователей.

Settlement & Reconciliation Analytics. Меньше команда: аналитика расчётов с банками-партнёрами, оптимизация settlement-cycle, обнаружение аномалий в reconciliation. Подойдёт DS с интересом к operational-analytics.

Что Qiwi ценит в DS

Опыт работы с real-time системами. Antifraud работает в мисс-секунды. Strong: «обучил CatBoost для антифрода с feature caching стратегией, latency 95p < 80ms; в A/B на 20% трафика за 30 дней fraud-rate снизился на 2.1pp при false positive rate стабильном; бизнес-эффект — около +X млн руб. saved per month». Цифры и обсуждение latency обязательны.

Опыт работы с регулятором. AML и KYC требования ЦБ — must-know для compliance-команд. SAR-фреймворк, KYC-уровни — стандарт.

Graph ML mindset. Fraud — это часто связанные счета / устройства / IP. Strong-кандидат сразу обсуждает graph-подходы как первого выбора для организованного fraud.

Кросс-функциональная адекватность. Payment-индустрия плотно работает с compliance, IT-безопасностью, операционным центром. Готовность объяснять модели не-тех коллегам — критично.

Готовность к жёстким false-positive constraints. В fraud-моделях не все ошибки одинаковы: false negative = потерянные деньги, false positive = недовольный клиент. Strong-кандидат сразу обсуждает business-aware cost-sensitive learning.

Кросс-функциональная адекватность. Payment-индустрия плотно работает с compliance, IT-безопасностью, операционным центром, регулятором. Готовность объяснять модели не-тех коллегам и работать в формальных процессах согласования — критично. Strong-кандидат готовит STAR-истории про разрешение конфликтов между скоростью разработки и регуляторной строгостью.

Долгосрочное мышление. Fraud-модели работают годами, и threat actors постоянно меняют тактики. Strong-кандидат сразу обсуждает план monitoring adversarial drift, переобучения и fall-back-стратегии на случай резких сдвигов в распределении атак.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

Минимум 5–7 недель. Неделя 1–2: ML-теория (классика, бустинги, calibration, graph ML basics). Неделя 3: LeetCode + pandas (50 задач). Неделя 4: SQL — оконки, complex JOIN, time-series queries. Неделя 5: real-time системы (latency-aware feature engineering, online learning), AML basics. Неделя 6: ML system design — 4 кейса (real-time fraud, AML, churn, cross-sell). Неделя 7: mock-интервью.

Для тренировки реальных вопросов с DS-собесов — открывай Карьерник: 1500+ задач по SQL, Python, A/B-тестам, статистике, продуктовой аналитике и ML по темам и сложности.

Частые ошибки

Первая — игнорирование real-time constraints. Если ты на собесе говоришь про «возьмём deep network», нужно сразу обсудить latency.

Вторая — слабая работа с несбалансированными классами. Fraud это 0.1–1% трафика. Подходы (SMOTE, class weights, focal loss, threshold tuning) — must-know.

Третья — отсутствие graph ML mindset. Fraud — связные структуры. Если кандидат предлагает только классический tabular ML, теряет важное преимущество.

Четвёртая — игнорирование regulatory-стороны AML. ЦБ-требования жёсткие, и кандидат, не различающий SAR vs KYC vs AML-tier-1/2/3, выглядит сыро для compliance-команд.

Пятая — нет цифр в кейсах. Fraud-rate, false positive rate, saved money — must.

Связанные темы

FAQ

Сколько этапов в собесе DS в Qiwi?

4–6 этапов: HR-скрининг, тестовое задание, ML / DS-теория, Python + SQL live-coding, ML system design + бизнес-кейс, поведенческое + AML compliance. Цикл — 3–5 недель.

Нужен ли опыт в payment-индустрии?

Желателен. Если нет — выделите 1–2 недели на изучение AML basics, KYC-уровней, real-time системного дизайна для антифрода.

Какой грейд DS подходит?

Middle и senior — основные. Junior-роли встречаются, но через тестовое и работу под наставничеством senior DS в команде fraud / compliance.

Какой английский нужен?

B1–B2 минимум. Большая часть документации по AML / fraud-detection — на английском.

Сколько платят DS в Qiwi?

Зависит от грейда. Для middle DS — на уровне крупных финтехов, для senior — выше. Antifraud и AML команды обычно платят на премиум-грейде из-за специфики и регуляторной ответственности.

Какие книги/курсы посмотреть?

По fraud-detection: статьи Stripe и PayPal по real-time fraud engines (есть в открытом доступе). По graph ML: Hamilton «Graph Representation Learning». По AML: материалы ЦБ и ACAMS-курсов для базового понимания регуляторного контекста.