Собеседование на Data Scientist в Магнит
Содержание:
Почему Магнит — особенный работодатель для DS
Магнит — крупнейшая по числу магазинов розничная сеть России: больше 30 тысяч точек разных форматов («у дома», «семейный», «косметик», аптеки, СберМаркет-доставка через интеграцию), миллионы чеков в день, десятки миллионов держателей карты лояльности. Для Data Scientist это значит работу на промышленных масштабах, где основные задачи крутятся не вокруг рекомендательных фильмов или антифрода в банке, а вокруг очень практичных проблем: что положить на полку, по какой цене, в каком магазине и как не уронить out-of-stock в пятничный вечер.
Главные ML-домены: прогноз спроса по SKU и магазину (десятки тысяч SKU × десятки тысяч магазинов = миллионы временных рядов), управление ассортиментом и assortment planning, ценообразование и эластичность (включая промо-аналитику и cannibalization), персональные рекомендации в карте лояльности и приложении, прогноз оттока программы лояльности и сегментация клиентов, оптимизация логистики (раскладка по складам и дозаказ), детекция фрода на кассе и в программе лояльности. NLP-задач немного, но они есть — анализ отзывов и обращений в поддержку. CV точечно — контроль выкладки на полке через фото-датчики.
Стек: Python + Catboost + LightGBM + Prophet/statsmodels для рядов + scikit-learn; ClickHouse и Greenplum для аналитики; Airflow для пайплайнов; Spark/Hive для тяжёлых распределённых вычислений; MLflow или внутренние инструменты для трекинга. Часть моделей — в производственных пайплайнах, часть — в управленческой аналитике. Архитектура ближе к классическому энтерпрайз-DWH, чем к стартапу, но скорость пилотов выше, чем в банках старого образца.
Актуальные вакансии — на hh.ru и сайте Магнита.
Информация основана на публичных источниках и опыте кандидатов. Команды Магнита используют разные процессы — формат и этапы зависят от направления и грейда, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 3-5 недель, 4-5 этапов. Процесс прагматичный: HR, ML-теория, кодинг, продуктовый кейс, финал. Без избыточных раундов, без сурового алгоритмического отсева как в Яндексе. Но входной поток высокий, поэтому скрининг плотный, и кандидата без production-опыта чаще всего отсеивают на первом этапе.
1. HR-скрининг (30-45 минут)
Рекрутер уточняет: production-опыт ML (от 1 года, желательно с табличными данными или time-series), знание ритейл-контекста или готовность быстро его выучить, мотивацию идти именно в Магнит, ожидания по компенсации и формату работы (Краснодар или Москва — у Магнита два больших HR-центра). Если в прошлом был опыт в e-com, банке или у другого ритейлера — упомяни в первые 60 секунд. Готовь питч на 90 секунд: что делал, какие модели в проде, какой эффект на бизнес-метрику.
2. ML-теория (60-90 минут)
Базовая секция со старшим DS из направления. Темы: градиентный бустинг (Catboost/LightGBM — почему именно они для табличных задач, как обработать категориальные фичи большой размерности, что такое ordered boosting), классические методы (логистическая регрессия и её интерпретация для бизнеса, метрики классификации, ROC-AUC vs PR-AUC при сильном дисбалансе), feature engineering для рейлдатки и чеков, time-series (Prophet, ARIMA, методы прогноза спроса, как работать с длинными хвостами SKU), эластичность и promo-эффекты. Чисто DL-вопросов почти нет — Магнит в табличке работает. Будь готов разобрать кейс «как ты бы предсказывал спрос на новый SKU без истории» (cold start).
Подготовка: классическая ML, time series на собесе, feature engineering.
3. Python + SQL live coding (60 минут)
Задачи попроще, чем в Яндексе или Тинькоффе: 1-2 на Python (структуры данных, простая динамика, работа с pandas), 1-2 на SQL (агрегаты, оконные функции, JOIN на больших фактических таблицах). Часто встречается живой кейс: «дам тебе фрейм с чеками, посчитай top-10 SKU по росту продаж week-over-week». Без LeetCode Hard. Готовиться: 20-30 SQL-задач уровня Medium на оконки и JOIN + 30-50 простых задач на pandas.
Подготовка: live coding.
4. Кейс / Product Design (60-90 минут)
Здесь делается основная ставка. Тебе дают продуктовый или бизнес-кейс: «спроектируй систему прогноза спроса для 30 000 SKU в 5 000 магазинов», «как ты бы оценил эффект промо-кампании на 1 SKU», «как сделать рекомендации в приложении Магнит, чтобы они увеличивали средний чек, а не каннибализировали маржу». Нужно: уточнить бизнес-метрику и цель, описать данные (что есть в чеках, в карте лояльности, в логах магазина), выбрать модель и обосновать выбор, продумать пайплайн и регулярность переобучения, обсудить trade-off скорости и точности, заложить мониторинг и A/B. Слабые ответы — где кандидат сразу строит огромную модель «на всё»; сильные — где видно понимание trade-off и опыт промышленных проблем (out-of-stock, cannibalization, длинные хвосты).
Подготовка: ML system design, метрики модели.
5. Финал с тимлидом / руководителем (45 минут)
Беседа с тимлидом или руководителем направления. Проверяют поведенческие истории (STAR), отношение к практической работе (data quality, разметка, починка пайплайнов — будни DS в ритейле), готовность работать с бизнес-заказчиками без ML-фона, иногда обсуждают переезд в Краснодар или формат удалёнки. Здесь редко отказывают, но цифры могут поджать — у Магнита бюджеты прагматичные.
Особенности по командам
Прогноз спроса и assortment planning. Самая большая ML-команда: миллионы временных рядов SKU × магазин, прогноз на горизонт от дня до квартала, оптимизация дозаказа. Стек — Python + Catboost + Prophet/statsmodels + Spark/Hive + ClickHouse. Главные челленджи: длинные хвосты SKU с разрежёнными продажами, влияние промо, сезонность и праздники, новые SKU без истории. Подойдёт кандидатам с background в supply-chain forecasting или в e-com prediction.
Pricing и promo-аналитика. Команда строит модели эластичности спроса, симулирует промо-кампании, оптимизирует регулярные цены. Стек — Catboost + econometric-модели + кастомные симуляторы. Челлендж — отделить эффект цены от эффекта погоды, дня недели, рекламы и других факторов. Подойдёт DS с эконометрическим бэкграундом или серьёзным опытом в А/B-тестах.
CRM и программа лояльности. Команда занимается персональными рекомендациями в приложении, прогнозом оттока программы лояльности, сегментацией клиентов по поведенческим паттернам, оптимизацией маркетинговых кампаний. Стек — Catboost + matrix factorization + двухбашенные сети + Greenplum. Челлендж — миллионы клиентов с разреженной историей покупок, балансировка релевантности и маржи. Подойдёт кандидатам с опытом recsys в e-com или crm-аналитике в банке.
Логистика и операционная аналитика. Прогноз нагрузки на склады и распределительные центры, оптимизация маршрутов, прогноз потерь и порчи. Стек — Python + классический ML + OR-методы (linear programming, vehicle routing). Подойдёт DS с математическим бэкграундом и интересом к operations research.
Antifraud и контроль кассы. Точечно: детекция фрода кассиров, аномалии в чеках, нарушения в программе лояльности. Стек — Python + Isolation Forest + графовые методы + рулбуки бизнеса. Подойдёт кандидатам с background в антифроде или security-аналитике.
Что Магнит ценит в DS
Production-опыт на табличке. В Магните редко берут «чистых DL-щиков» без опыта работы с табличными данными. Сильный сигнал — история про модель, которая крутится в проде N месяцев, кормит дашборд или пайплайн дозаказа, и про которую кандидат может рассказать, как мониторил и обновлял.
Понимание ритейл-бизнеса. Не обязательно работал в ритейле, но базовые понятия (SKU, ассортиментная матрица, out-of-stock, маржа, оборот, ABC-анализ, корзина) должны быть знакомы. На кейсе сразу видно, если человек путает выручку и маржу или не понимает разницу между «продали много» и «заработали много».
Прагматизм. В Магните ценят «давай попробуем линейку и Catboost», а не «возьмём transformer». Кандидат, который на System Design предлагает MLP вместо градиентного бустинга на 50 фичах, получит -1.
Weak vs strong на System Design. Слабый ответ: «возьмём LSTM для прогноза спроса по 30 000 SKU». Сильный ответ: «начну с naive (mean by SKU+магазин+неделя), сравню с Prophet и Catboost на лагах. LSTM — только если три предыдущих не дают MAPE целевого уровня и есть бюджет на инфраструктуру для тренировки 30 000 моделей. На длинных хвостах SKU всё равно лучше всего работает наивная статистика — это нужно сразу заложить в архитектуру: hierarchical-модель для топ-3000 SKU, простая статистика для остальных».
Готовность работать с бизнесом. DS в Магните плотно работает с категорийными менеджерами и операционкой. Умение объяснить модель на языке «маржа», «продажи», «оборот» — ежедневная компетенция, не soft skill.
Скорость пилота. Магнит научился быстро пилотировать идеи. Кандидат, который месяц делает идеальный pipeline, менее интересен, чем тот, кто за неделю выкатывает «грязный» пилот и потом полирует. На System Design это слышно.
Как готовиться: план
За 4-6 недель до планируемого собеса:
- Неделя 1-2 — Табличный ML и time-series. Catboost/LightGBM (категориальные фичи большой размерности, регуляризация, ordered boosting), валидация для рядов (rolling-origin, не голый k-fold), Prophet и ARIMA, hierarchical-методы прогноза. Прорешай 1-2 Kaggle-кейса на retail-данных (Rossmann, Corporación Favorita). Параллельно — пройдись по базе ML на Карьернике: 1500+ задач по SQL, Python, статистике и ML, по 15-20 минут в день, чтобы за месяц закрыть базу и не спотыкаться на простых вопросах вроде «что такое ROC-AUC и когда он бесполезен».
- Неделя 3 — Ритейл-контекст. Прочитай блоги X5 Tech, Wildberries Tech, Магнит Tech, статьи по retail-forecasting. Запомни понятия: ABC-анализ, ассортиментная матрица, out-of-stock, оборачиваемость, эластичность, cannibalization.
- Неделя 4 — Python + SQL live coding. 20-30 SQL-задач на оконки и JOIN, 30 задач на pandas (groupby, merge, time-windows).
- Неделя 5 — System Design кейсы. Прорешай 5-6 кейсов: прогноз спроса, эффект промо, рекомендации в приложении, антифрод кассира, логистика. Структура — бизнес → метрики → данные → модель → A/B → мониторинг. ML system design.
- Неделя 6 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с категорийным менеджером, факап в проде, кейс с быстрым пилотом, история про экономию на правильном выборе модели.
Частые ошибки
Хайпуют сложными моделями на простых задачах. Кандидат предлагает Temporal Fusion Transformer для прогноза спроса по 30 000 SKU. Не учитывает, что на длинных хвостах ARIMA и Prophet дают сопоставимое качество за 1% от компьюта. Балл проседает сразу.
Не разбираются в ритейл-метриках. «Чем хорош прогноз?» — «MAPE низкий». Не упоминают, что для retail важна не точка, а распределение, и что overforecast и underforecast стоят разные деньги. Если в ответе нет ни слова про экономику ошибок — балл проседает.
Игнорируют длинный хвост. В ритейле 80% SKU — это длинный хвост с разрежёнными продажами. Если модель кандидата работает только на топ-1000 SKU, это сразу minus. Правильный подход — hierarchical-модели и разные алгоритмы для разных групп.
Не задают вопросы про данные. На кейсе кандидат сразу — модель, а не «что есть в чеках, какая частота, какие пропуски, как мы собираем данные о промо». Это первый фильтр.
Не понимают разницу retention в B2C ритейле. Кандидат рассказывает про DAU/MAU, как в SaaS. В ритейле retention считается на корзинах и на revenue от постоянных клиентов — это другая метрика и другая модель.
Связанные темы
- Собеседование на Data Scientist
- Time series на собесе
- Feature engineering
- Собеседование на ML Engineer в Магнит
- Собеседование на аналитика в Магнит
FAQ
Удалёнка в Магните для DS?
Преимущественно гибрид с офисами в Краснодаре или Москве. Полная удалёнка возможна для senior+ при согласовании с тимлидом, но это не правило. Если живёшь в регионах, лучше уточнить на скрининге.
Зарплатные вилки 2026?
Middle DS: 240-380k. Senior: 380-580k. Lead/Staff — выше, особенно в направлении прогноза спроса и pricing. Бонусная схема привязана к KPI команды.
Нужен ли английский?
Базовый — для документации и статей. Свободного говорящего не требуется, клиенты и команды русскоязычные.
Сколько этапов?
4-5 этапов, 3-5 недель от первого скрининга до оффера. У Магнита процесс быстрее, чем в банках, но медленнее, чем у мелких стартапов.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам.