Собеседование на Data Scientist в ЮMoney

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему ЮMoney — особенный работодатель для DS

ЮMoney (бывшие Яндекс.Деньги) — один из крупнейших российских P2P-платёжных операторов, входивший в группу Яндекс / Сбер. P2P-кошельки, регулярные платежи, b2c-сервисы оплаты — основа портфеля. Для Data Scientist это работа в зрелой платёжной экосистеме с серьёзной DS-экспертизой и масштабом транзакций, сопоставимым с крупными банками. По сравнению с Qiwi — фокус на b2c и более интегрированная экосистема с Я.Сбер-сервисами.

ML-домены: антифрод (real-time inference), AML / KYC, churn / retention в кошельке, прогноз LTV, customer-segmentation, recommendation платёжных сервисов, NLP на обращениях в саппорт, performance-маркетинг и attribution, cross-product интеграция с экосистемой. Стек: Python, scikit-learn, CatBoost / XGBoost, PyTorch для графовых и NLP-задач, ClickHouse, PostgreSQL, Hadoop / Spark, Kafka для real-time, Airflow, MLflow.

Актуальные вакансии — на hh.ru и сайте ЮMoney.

Информация основана на публичных источниках и опыте кандидатов. Команды ЮMoney используют разные процессы — уточняйте у рекрутера.

Этапы собеседования

Цикл 4–6 недель и включает 5–6 этапов. Процесс структурированный, ближе к крупным финтех-компаниям. Сильная техническая планка для middle+.

1. HR-скрининг (30–45 минут)

Рекрутер проверяет: production-опыт DS (1.5+ года), причины смены работы, ожидания. Опыт в payment, антифроде, банковском скоринге, recsys — большой плюс. На скрининге часто уточняют готовность работать с большими объёмами лог-данных, опыт A/B-экспериментов и понимание AML/KYC-фундамента.

2. Тестовое задание (3–7 дней)

Часто даётся: датасет с транзакциями, нужно построить модель fraud или сегментации. Сильные кандидаты обсуждают real-time inference, business-aware cost-sensitive learning и интерпретируемость. Особенность ЮMoney — внимание к engineering-стороне: сдача может включать не только notebook, но и небольшой production-ready модуль с тестами. Это намёк на то, что в команде ценят DS, готовых писать код, который потом не нужно полностью переписывать engineers.

3. ML / DS-теория (60–90 минут)

С senior DS из команды. Темы: классика (бустинги, регуляризация, метрики, calibration), graph ML, survival для churn, sampling для несбалансированных классов, статистика. Доп. блок: cross-product сигналы с учётом data governance (часть данных может пересекаться с экосистемой).

Подготовка: Классическая ML на собесе, ML-теория.

4. Python + SQL live-coding (60–90 минут)

Live: 1–2 алгоритмические задачи (LeetCode Medium), 1–2 на pandas / SQL. SQL обычно на ClickHouse / PostgreSQL — оконки, complex JOIN, ratio-метрики. Типичная задача — посчитать DAU/MAU кошелька по когортам регистрации с учётом «активности» (минимум одна транзакция за период), либо найти аккаунты с подозрительной активностью через оконные функции и сравнение со средними по сегменту.

Подготовка: Live-coding, SQL-собес.

5. A/B и эксперименты (60 минут)

Спрашивают: дизайн эксперимента, sample size, MDE, ratio-метрики, peeking, SRM, как анализировать эксперименты в payment-домене (high stakes, low margins for error). Особенность payment-A/B — высокая стоимость false-decision (катящаяся fraud-модель в проде = реальная потеря денег), поэтому процесс согласования эксперимента более формальный. Готовь конкретные кейсы из работы с цифрами и честным разбором, что бы делал при null-результате.

Подготовка: A/B и causal inference.

6. ML system design + бизнес-кейс (60–90 минут)

Кейсы: «как ты бы построил real-time антифрод», «как обнаружить организованную fraud-группу через graph-сигналы», «как сегментировать клиентов для recommendation сервисов». Сильные ответы — где обсуждаются latency, false-positive cost, регуляторные ограничения, и осторожно — cross-product сигналы. От тебя ждут структурированный ответ: бизнес-метрика → данные → baseline → итерации → A/B-план → мониторинг → план отката. Сильные кандидаты сразу обсуждают cost-trade-off и адекватность подходов к специфике payment.

7. Поведенческое + AML compliance (45 минут)

С тимлидом и менеджером. STAR-формат. Доп. блок — проверка готовности работать с регулятором и AML-требованиями. Часть разговора может уходить в детали — как ты бы объяснил compliance-аудитору решение чёрного-box модели, как обеспечил бы воспроизводимость моделей для аудита, какие технические артефакты сохраняешь после каждого деплоя. Готовь STAR-историю про работу с регуляторно-чувствительными решениями и историю про разрешение конфликта между скоростью и регуляторной строгостью.

Особенности по командам

Antifraud & Real-time ML. Главная команда: real-time детекция fraud в платежах, balanced false-positive / false-negative, model monitoring. Mix классики и graph ML. Подойдёт DS с background в real-time системах.

AML / KYC Compliance. Регуляторно-жёсткая зона: детекция отмывания, suspicious activity, KYC-моделирование. Тесная связка с compliance-отделом и регуляторным юридическим блоком.

Customer Retention & LTV. Прогноз ухода, реактивация, LTV-прогноз, пропенситив-моделирование. Серьёзный фокус на удержание в payment-сервисе.

Recommendation & Personalization. Рекомендации платёжных сервисов и услуг, персонализация push-уведомлений и e-mail-кампаний.

Marketing & Acquisition. Атрибуция, прогноз ROI, скоринг лидов, performance-маркетинг.

Cross-Product Analytics. Уникальная команда: использование сигналов из экосистемы (Я.Сбер) для прогноза engagement и retention в платёжном продукте. Сильно завязана на data governance.

Behavioural Scoring & Credit Products. Меньше команда, но интересная: использование платёжной истории для предсказания кредитоспособности под микрокредиты и BNPL-продукты, behavioural-scoring на основе паттернов.

Operational Analytics. Аналитика производительности платёжного стека, прогноз нагрузки на платёжные сервисы, оптимизация settlement-cycles. Подойдёт DS с интересом к operational-DS и инфраструктурным метрикам.

Pricing & Settlement. Команда вокруг тарифной сетки: оптимизация комиссий для разных типов транзакций, прогноз эффекта изменения цены на retention и объём.

Что ЮMoney ценит в DS

Сильный фундамент по ML. Технический уровень в ЮMoney выше среднего по payment-индустрии. Strong: «обучил CatBoost для real-time антифрода, latency 95p < 60ms, AUC 0.94 на out-of-time, calibrated через isotonic; в A/B на 25% трафика за 30 дней fraud rate -2.4pp без роста false positives; бизнес-эффект — около +X млн руб. saved per quarter». Цифры обязательны.

Real-time mindset. Antifraud в payment работает за мисс-секунды. Кандидат, не различающий offline и online inference, выглядит сыро.

Graph ML mindset. Fraud — графы связей. Strong-кандидат сразу обсуждает graph-подходы.

Понимание AML / compliance. Регулятор требует объяснимости моделей в compliance-зоне.

Готовность к экосистеме. Если идёшь в cross-product команду — понимание data governance критично.

Кросс-функциональная адекватность. ЮMoney работает в плотной связке с compliance, IT-безопасностью, операционным центром и регулятором. Готовность объяснять модели не-тех коллегам, работать в формальных процессах согласования и эскалации спорных решений — must для middle+.

Долгосрочное мышление. Платёжные ML-модели живут годами при изменяющейся среде (новые fraud tactics, регуляторные изменения, новые продукты экосистемы). Strong-кандидат сразу обсуждает план monitoring drift, периодического переобучения, контроля смещений.

Англоязычная литература по теме. Большая часть state-of-the-art в payment-fraud и AML — англоязычные публикации и industry blogs. Готовность регулярно читать материалы Stripe, PayPal, Square, Visa, MasterCard и регуляторных организаций (FATF, BIS, FinCEN) на английском — серьёзный плюс.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

Минимум 6–8 недель. Неделя 1–2: ML-теория (классика, бустинги, calibration, graph ML basics). Неделя 3: LeetCode + pandas (60 задач). Неделя 4: SQL — оконки, complex JOINs. Неделя 5: real-time системы, AML / KYC basics. Неделя 6: A/B и interpretability. Неделя 7: ML system design — 4 кейса (real-time fraud, AML, retention, recsys). Неделя 8: mock-интервью.

Для тренировки реальных вопросов с DS-собесов — открывай Карьерник: 1500+ задач по SQL, Python, A/B-тестам, статистике, продуктовой аналитике и ML по темам и сложности.

Частые ошибки

Первая — игнорирование real-time constraints в антифроде.

Вторая — слабая работа с несбалансированными классами (fraud это <1%).

Третья — нет graph ML mindset для организованного fraud.

Четвёртая — игнорирование regulatory-стороны AML.

Пятая — нет цифр в кейсах.

Шестая — попытка работать с cross-product сигналами без понимания data governance.

Связанные темы

FAQ

Сколько этапов в собесе DS в ЮMoney?

5–7 этапов: HR-скрининг, тестовое, ML / DS-теория, Python + SQL live-coding, A/B и эксперименты, ML system design + бизнес-кейс, поведенческое + AML compliance. Цикл — 4–6 недель.

Нужен ли опыт в payment?

Желателен. Если нет — выделите 1–2 недели на real-time fraud-detection и AML basics.

Чем DS в ЮMoney отличается от DS в Qiwi?

По задачам близко (payment, antifraud, AML). ЮMoney интегрирован в Яндекс / Сбер-экосистему, что даёт уникальные cross-product задачи и более жёсткую data governance. Qiwi — независимее, акцент на собственных платёжных сервисах.

Какой английский нужен?

B1–B2 минимум, для senior — выше.

Сколько платят DS в ЮMoney?

Зависит от грейда. Для middle DS — на уровне крупных финтехов, для senior — выше. Antifraud и Cross-Product команды обычно платят на премиум-грейде.

Берут ли DS-джунов?

Редко. Чаще middle+. Junior может зайти через тестовое и работу в команде под наставничеством senior.

Какие книги/курсы посмотреть?

Hamilton «Graph Representation Learning» — для graph ML основ. Статьи Stripe / PayPal по real-time fraud engines. ACAMS-материалы по AML.