Собеседование на Data Scientist в Mindbox
Содержание:
Почему Mindbox — особенный работодатель для DS
Mindbox — крупнейшая российская CDP (Customer Data Platform) и marketing automation платформа: десятки крупных клиентов из retail, e-com, банков и сервисов, миллиарды событий в день, продуктовые модули по сегментации, рекомендациям, RFM, триггерным рассылкам, омниканальным сценариям. Для Data Scientist это редкое сочетание: с одной стороны — продуктовый ML (модели, которые используют десятки клиентов в проде), с другой — настоящая B2B-аналитика SaaS-бизнеса (churn клиентов Mindbox, expansion, NPS, support load).
Главные ML-домены: рекомендательные модели как product feature (collaborative filtering, content-based, гибридные подходы — клиенты подключают и получают готовый «персональный блок»); RFM-сегментация и автоматические сегменты по поведению; прогноз оттока пользователей клиента (для retention-сценариев); next-best-action и optimal-send-time для рассылок; антифрод на промокодах и купонах; LTV-моделирование; внутренние модели на churn и expansion клиентов Mindbox; NLP — анализ обращений в саппорт, классификация тегов, генерация контента. Часть моделей — продакшен-сервисы поверх миллиардов событий, часть — внутренняя аналитика SaaS-метрик.
Стек: Python + Catboost + LightGBM + PyTorch + Prophet; ClickHouse как основной DWH (Mindbox известен своим масштабным использованием ClickHouse); Spark/Hive для тяжёлых пайплайнов; собственная feature-инфраструктура и MLflow-стайл трекинг; Kubernetes для serving. Команда невелика для масштабов продукта, поэтому DS работает плотно с инженерами и продактами.
Актуальные вакансии — на hh.ru и сайте Mindbox.
Информация основана на публичных источниках и опыте кандидатов. Команды Mindbox используют разные процессы — формат и этапы зависят от направления и грейда, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 3-5 недель, 4-5 этапов. Процесс быстрый и продуктовый, без избыточной бюрократии: HR, ML-теория, кодинг и SQL, продуктовый кейс, финал с командой. Алгоритмическая планка средняя, без LeetCode Hard. Mindbox известен короткими циклами и прямой обратной связью.
1. HR-скрининг (30-45 минут)
Рекрутер уточняет: production-опыт ML (от 1.5 лет, желательно с табличными данными или recsys), знание SaaS- или e-com-контекста, мотивацию идти именно в Mindbox (а не в банк или e-com), ожидания по компенсации и формату работы (Москва, есть гибрид и удалёнка). Mindbox ценит «продуктовое мышление» — питч надо строить вокруг бизнес-эффекта, а не вокруг точности модели. Готовь питч на 90 секунд про самый зрелый production-кейс.
2. ML-теория и продуктовый ML (60-90 минут)
Базовая секция со старшим DS из направления. Темы: градиентный бустинг (Catboost/LightGBM — почему именно они для табличных данных, регуляризация, обработка категориальных), классические recsys-методы (CF, ALS, matrix factorization, content-based, hybrid), ranking metrics (NDCG, MAP, MRR), эмбеддинги, two-tower-модели для retrieval, классические методы (логистическая регрессия с интерпретацией для маркетологов, метрики классификации), RFM-сегментация и unsupervised-методы кластеризации, базовая статистика и A/B (это критично — Mindbox продаёт инструменты для A/B). Спрашивают предметно: «как ты валидировал бы recsys-модель, которая пойдёт сразу к 30 разным клиентам с очень разными бизнес-задачами».
Подготовка: классическая ML, метрики модели, feature engineering.
3. Python + SQL live coding (60 минут)
Задачи прагматичные: 1-2 на Python (pandas, базовые алгоритмы, простая обработка событий), 1-2 на SQL (агрегаты, JOIN, оконные функции, особенно на ClickHouse-стиле). Часто живой кейс на event-данных: «дам тебе фрейм с событиями пользователей клиента, посчитай retention D7 и D30». Без LeetCode Hard. Готовиться: 20-30 SQL Medium-задач на оконки + 30 простых на pandas. Желательно ознакомиться с особенностями ClickHouse-SQL (argMax, runningAccumulate, sequenceCount).
Подготовка: live coding.
4. Продуктовый кейс (60-90 минут)
Основная ставка интервью. Кейс продуктовый: «спроектируй новый сегмент пользователей „склонных к покупке премиум-товаров“ для retail-клиентов», «как ты бы построил универсальный recsys, который работает у 30 разных клиентов с разными каталогами», «как оценить, что новый алгоритм next-best-action даёт +1% к выручке клиента». Нужно: уточнить бизнес-метрику, описать данные (что есть в стандартной интеграции Mindbox), выбрать модель и обосновать выбор, продумать пайплайн (offline vs online, multi-tenant aspects), обсудить A/B и оценку для разных клиентов. Сильный сигнал — учёт multi-tenant специфики: модель пойдёт сразу к десяткам клиентов, у каждого свой каталог и сценарий.
Подготовка: ML system design, A/B и causal inference.
5. Финал с командой / тимлидом (45-60 минут)
Беседа с тимлидом или представителем команды. Проверяют поведенческие истории (STAR), отношение к продуктовой работе, готовность работать с клиентами и саппортом, обсуждают грейд. Не отсев, но Mindbox ценит культурный fit и плотную коммуникацию.
Особенности по командам
Recsys и продуктовые модели. Команда строит рекомендательные системы как product feature: персональные рекомендации в письмах, на сайтах клиентов, в SMS/push. Стек — Python + Catboost + two-tower + кастомные feature stores + ClickHouse. Челлендж — multi-tenant: одна модель должна работать у retail-сети, у банка и у edtech-сервиса с разными каталогами и сигналами. Подойдёт DS с опытом recsys в e-com или маркетинге.
Сегментация и RFM. Команда занимается автоматическими сегментами по поведению, RFM-классикой, look-alike-моделями, прогнозом склонности к покупке/оттоку для retention-сценариев. Стек — Catboost + классическая кластеризация + Spark + ClickHouse. Челлендж — объяснимость сегментов: маркетолог клиента должен понимать, кого он отправляет в кампанию. Подойдёт DS с опытом в CRM-аналитике или банковской сегментации.
Optimal-send-time и next-best-action. Команда оптимизирует время рассылок, выбор канала, последовательность шагов в сценарии. Стек — Catboost + bandits + statsmodels. Челлендж — обучение в условиях continuous deployment у множества клиентов одновременно. Подойдёт DS с background в маркетинг-аналитике или RL/bandits.
Internal SaaS analytics. Команда внутренних DS: churn клиентов Mindbox, expansion, NPS-аналитика, support load prediction. Стек — Catboost + классические методы + кастомные дашборды. Подойдёт кандидатам с B2B-SaaS background или CRM-фоном.
NLP и contentai-проекты. Точечно: классификация тегов, анализ обращений, генерация контента для рассылок. Стек — PyTorch + transformer-модели + интеграция с LLM-провайдерами. Подойдёт DS с NLP-фоном и интересом к продуктовым LLM-кейсам.
Что Mindbox ценит в DS
Продуктовое мышление. Кандидат, который рассказывает только про accuracy и AUC, без перевода в бизнес-эффект клиента, не пройдёт. Сильный сигнал — история «запустил recsys у клиента-ритейлера, +2.5% выручки в когортном A/B на 4 недели».
Production-опыт. Не Kaggle-experience, а модель в проде с количественным эффектом. История про модель, которая крутится у клиентов и приносит им деньги.
Multi-tenant и универсальность. Mindbox — SaaS-платформа, модели идут к десяткам клиентов сразу. Кандидат, который думает только про одну компанию-заказчика, рассматривается слабее. Сильный — тот, кто сразу спрашивает «как мы это масштабируем на 50 клиентов с разными каталогами».
Weak vs strong на System Design. Слабый ответ: «обучим персональную модель для каждого клиента отдельно». Сильный ответ: «начну с гибрида: глобальная two-tower-модель на агрегированных эмбеддингах клиентов + content-based fallback для клиентов с маленьким каталогом или новых. Для крупных клиентов с N+ месяцев данных запущу персональный fine-tune. Метрика — не глобальный NDCG, а NDCG/CTR разбит по клиентам и по сегментам, потому что „средняя по больнице“ маскирует деградацию у небольших клиентов».
Быстрая итерация. Mindbox известен скоростью продуктовых релизов. Кандидаты, которые любят месяцами полировать pipeline без MVP, рассматриваются слабее.
Готовность к work-with-customer. В Mindbox часть DS-работы — это разговоры с клиентами (особенно при настройке моделей под их бизнес). Кандидат, который категорически не хочет общаться с клиентами, рискует.
Как готовиться: план
За 5-7 недель до планируемого собеса:
- Неделя 1-2 — Recsys и табличный ML. Catboost (категориальные фичи, регуляризация, ordered boosting), CF и matrix factorization, factorization machines, двухбашенные сети, content-based методы, ranking metrics (NDCG, MAP, MRR). Прорешай 1-2 Kaggle-кейса на recsys-данных (H&M, MovieLens). Параллельно — на Карьернике обнови базу по SQL, Python и ML: 1500+ задач, по 15-20 минут в день, за месяц закроешь пробелы и не будешь путаться в простых вопросах вроде «как валидировать recsys на time-aware split».
- Неделя 3 — CDP и SaaS-контекст. Прочитай блог Mindbox, разделы Segment.com (старый), Braze, Klaviyo. Запомни понятия: CDP, RFM, next-best-action, optimal-send-time, omnichannel orchestration, single customer view.
- Неделя 4 — Python + SQL + ClickHouse. 20-30 SQL Medium-задач, 30 простых на pandas. Дополнительно изучи особенности ClickHouse-SQL (argMax, sequenceCount, runningAccumulate) — это рабочий инструмент в Mindbox.
- Неделя 5 — System Design кейсы. Прорешай 5-6 кейсов: универсальный recsys для multi-tenant, сегментация на RFM+ML, churn-prediction в SaaS-CDP, оптимизация send-time, антифрод на промокодах. Структура — бизнес → метрики → данные → модель → multi-tenant вопросы → A/B → мониторинг. ML system design.
- Неделя 6-7 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с клиентом-заказчиком, факап в проде у клиента, история про быстрый продуктовый пилот, кейс с multi-tenant архитектурой.
Частые ошибки
Не думают про multi-tenant. Кандидат на System Design рисует модель «для одного клиента». Mindbox — это SaaS на десятки клиентов. Если в ответе нет ни слова про multi-tenant — балл проседает.
Хайпуют сложными моделями. Кандидат предлагает огромный transformer для всех клиентов сразу. Не упоминает, что у клиентов с маленьким каталогом простой CF или content-based даёт сопоставимое качество за 1% от стоимости.
Не разбираются в маркетинговых метриках. «Что такое open rate, CTR, conversion rate в маркетинге?» — кандидат теряется. Это бытовой словарь в Mindbox.
Не задают вопросы про данные. На кейсе сразу — модель, а не «что есть в стандартной интеграции, какие события собираются, какие пропуски». Это первый фильтр.
Не умеют объяснять бизнес-эффект. Mindbox продаёт результаты маркетологам. Кандидат, который не может перевести «AUC 0.78» в «+ N% выручки на сценарии», рассматривается слабее.
Связанные темы
- Собеседование на Data Scientist
- A/B и causal inference
- Метрики модели
- Собеседование на ML Engineer в Mindbox
- Собеседование на маркетинг-аналитика в Mindbox
FAQ
Удалёнка в Mindbox для DS?
Гибрид с офисом в Москве, есть удалёнка для отдельных позиций (особенно senior+). Mindbox исторически лояльно относится к удалёнке, но коммуникация с командой ожидается интенсивная.
Зарплатные вилки 2026?
Middle DS: 230-360k. Senior: 360-560k. Lead/Staff — выше. Бонусная схема скромнее, чем в Тинькоффе или Яндексе, но возможны опционы для ключевых позиций — уточняй у рекрутера.
Нужен ли английский?
Базовый — для документации, статей и иногда международных клиентов. Свободного говорящего не требуется, основная команда русскоязычная.
Сколько этапов?
4-5 этапов, 3-5 недель от первого скрининга до оффера. Mindbox известен быстрой обратной связью — если подходишь, оффер приходит быстро.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам.