Собеседование на Data Scientist в Ашан
Содержание:
Почему Ашан — особенный работодатель для DS
Ашан — международная розничная сеть в России: десятки гипермаркетов и супермаркетов, программа лояльности «Бонус», e-com и доставка через приложение, активная адаптация форматов под локальный рынок. Для Data Scientist это интересное место: международное наследие в процессах (стандарты Auchan Group) сочетается с локальной свободой решений. Команда меньше, чем у Магнита или X5, что даёт больше владения проектами «от и до».
Главные ML-домены: прогноз спроса по SKU и магазину (тысячи SKU × десятки магазинов), управление ассортиментом и assortment-rebalancing между гипермаркетами и форматом поменьше, ценообразование и promo-аналитика, персональные рекомендации в карте лояльности и приложении доставки, прогноз оттока программы лояльности, оптимизация логистики между распределительными центрами, иногда — антифрод программы лояльности. NLP-задачи точечные (анализ отзывов), CV — преимущественно для контроля выкладки и shelf-аналитики через камеры.
Стек: Python + Catboost + LightGBM + Prophet + scikit-learn; ClickHouse и Greenplum для аналитики; Airflow для пайплайнов; Spark для распределённых вычислений; MLflow для трекинга. Часть кодовой базы пришла из группы Auchan, но активно локализуется и переписывается под российскую инфраструктуру и облако.
Актуальные вакансии — на hh.ru и сайте Ашана.
Информация основана на публичных источниках и опыте кандидатов. Команды Ашана используют разные процессы — формат и этапы зависят от направления и грейда, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 4-5 недель, 4-5 этапов. Процесс прагматичный, с упором на product-fit и понимание ритейла: HR, ML-теория, кодинг, продуктовый кейс, финал. Алгоритмическая планка средняя, без LeetCode Hard. На отдельных направлениях бывает дополнительная секция с бизнес-заказчиком (категорийным менеджером или директором e-com).
1. HR-скрининг (30 минут)
Рекрутер уточняет: production-опыт ML (от 1 года, желательно с табличными данными или recsys), знание ритейл-контекста или готовность быстро его выучить, мотивацию идти именно в Ашан, ожидания по компенсации и формату работы (Москва). Если в прошлом был опыт в e-com, FMCG или другом ритейлере — упомяни в первые 60 секунд. Готовь питч на 90 секунд: что делал, какие модели в проде, какой эффект на бизнес-метрику.
2. ML-теория (60-75 минут)
Базовая секция со старшим DS из направления. Темы: градиентный бустинг (Catboost/LightGBM — почему именно они для табличных данных, как обработать категориальные фичи большой размерности, регуляризация, ordered boosting), классические методы (логистическая регрессия и её интерпретация, метрики классификации, ROC-AUC vs PR-AUC при дисбалансе), feature engineering для чеков и SKU, time-series (Prophet, ARIMA, методы прогноза, valididation для рядов с anti-leakage), эластичность и promo-эффекты, recsys-база (CF, matrix factorization). Чисто DL-вопросов мало. Будь готов разобрать кейс «как ты бы предсказывал спрос с учётом промо-кампании, которая пройдёт через две недели».
Подготовка: классическая ML, time series, feature engineering.
3. Python + SQL live coding (60 минут)
Задачи прагматичные: 1-2 на Python (структуры данных, работа с pandas), 1-2 на SQL (агрегаты, JOIN, оконные функции). Часто встречается живой кейс: «дам тебе фрейм с чеками и категорийной матрицей, посчитай средний чек по топ-10 категориям». Без LeetCode Hard. Готовиться: 20-30 SQL-задач уровня Medium на оконки и JOIN + 30 простых задач на pandas.
Подготовка: live coding.
4. Кейс / Product Design (60-90 минут)
Основная ставка интервью. Кейс — продуктовый или бизнес: «спроектируй модель прогноза спроса для двух разных форматов магазинов», «как ты бы оценил эффект промо-кампании на категорию», «как сделать персональные рекомендации в приложении доставки, чтобы они увеличивали средний чек, а не каннибализировали маржу». Нужно: уточнить бизнес-метрику и цель, описать данные (чеки, карта лояльности, e-com, логистика), выбрать модель и обосновать выбор, продумать пайплайн и регулярность переобучения, обсудить trade-off скорости и точности, заложить мониторинг и A/B. Сильный сигнал — учёт разницы между гипермаркетом и форматом поменьше, обсуждение длинных хвостов и cold start для новых SKU.
Подготовка: ML system design, метрики модели.
5. Финал с тимлидом / руководителем направления (45 минут)
Беседа с тимлидом или руководителем. Проверяют поведенческие истории (STAR), отношение к практической работе (data quality, разметка, починка пайплайнов), готовность работать с категорийными менеджерами и операционкой, иногда обсуждают формат удалёнки и грейд. Здесь редко отказывают, но цифры могут поджать.
Особенности по командам
Прогноз спроса и assortment. Команда занимается прогнозом спроса по тысячам SKU × десяткам магазинов и оптимизацией ассортиментной матрицы по форматам. Стек — Python + Catboost + Prophet + Spark + ClickHouse. Главные челленджи: гипермаркет vs формат поменьше — разные модели спроса, длинные хвосты SKU, влияние промо и сезонности. Подойдёт кандидатам с background в supply-chain forecasting или ритейл-DS.
E-com и доставка. Команда занимается аналитикой приложения и онлайн-заказов: конверсия, retention в доставке, оптимизация показа SKU, антифрод при оплате. Стек — Catboost + классический recsys + А/B-инфраструктура. Челленджи — мобильный UX, ограниченное время сессии в e-com, специфика онлайн-корзины (товары с высокой и низкой плотностью). Подойдёт DS с опытом в e-com.
CRM и программа лояльности. Команда занимается персональными рекомендациями в приложении, прогнозом оттока программы лояльности, сегментацией клиентов и оптимизацией маркетинговых кампаний. Стек — Catboost + matrix factorization + двухбашенные сети + Greenplum. Челлендж — миллионы клиентов с разреженной историей покупок, балансировка релевантности и маржи. Подойдёт кандидатам с опытом recsys в e-com или crm-аналитике.
Pricing и promo-аналитика. Команда строит модели эластичности спроса и оценивает эффект промо-кампаний. Стек — Catboost + эконометрика + кастомные симуляторы. Челлендж — отделить эффект цены от прочих факторов и учесть cannibalization между близкими SKU. Подойдёт DS с эконометрическим бэкграундом или серьёзным опытом в А/B-тестах.
Логистика и operations DS. Прогноз нагрузки на распределительные центры, оптимизация маршрутов, прогноз потерь и порчи скоропортящихся товаров. Стек — Python + классический ML + OR-методы. Подойдёт кандидатам с математическим бэкграундом и интересом к operations research.
Что Ашан ценит в DS
Production-опыт. Не Kaggle-experience, а модель в проде с количественным эффектом. История про модель, которая крутится в проде N месяцев, кормит дашборд или пайплайн дозаказа, бьёт любую медаль на соревнованиях.
Понимание ритейл-бизнеса. Не обязательно работал в ритейле, но базовые понятия (SKU, ассортиментная матрица, out-of-stock, маржа, оборот, оборачиваемость, корзина, ABC-анализ) должны быть знакомы. На кейсе сразу видно, кто это понимает.
Прагматизм над хайпом. В Ашане ценят «давай попробуем Catboost», а не «возьмём transformer». Кандидат, который на System Design предлагает MLP на 50 фичах, получит -1.
Weak vs strong на System Design. Слабый ответ: «возьмём огромный transformer для прогноза спроса по всем SKU и магазинам». Сильный ответ: «начну с naive (mean by SKU+магазин+неделя) и Prophet с автоматической сезонностью, сравню с Catboost на лагах и promo-фичах. Поскольку у нас два формата (гипермаркет и поменьше), скорее всего нужны две модели: для гипермаркета больше выборка и стабильный спрос, заходит Catboost на лагах; для формата поменьше выборка маленькая, лучше иерархическая модель с pool-эффектом. Transformer — только если упрёмся в потолок, и при этом заложу мониторинг доли overforecast/underforecast и kill-switch на старую модель».
Готовность работать с бизнесом. DS в Ашане плотно работает с категорийными менеджерами и операционкой. Умение объяснить модель на бизнес-языке — ежедневная компетенция.
Скорость пилота. Ашан активно перестраивает стек и любит быстрые пилоты. Кандидат, который месяц настраивает идеальный pipeline без MVP, менее интересен.
Как готовиться: план
За 4-6 недель до планируемого собеса:
- Неделя 1-2 — Табличный ML и time-series. Catboost/LightGBM (категориальные фичи большой размерности, регуляризация), валидация для рядов (rolling-origin), Prophet и ARIMA, hierarchical-методы. Прорешай 1-2 Kaggle-кейса на retail-данных (Rossmann, Corporación Favorita). Параллельно — пройдись по базе ML, SQL и Python на Карьернике: 1500+ задач с разбивкой по темам, по 15-20 минут в день, чтобы к собесу не путаться в простых вопросах вроде «что такое regularization и почему она нужна в Catboost».
- Неделя 3 — Ритейл-контекст. Прочитай блоги X5 Tech, Wildberries Tech, Магнит Tech, статьи по retail-forecasting и e-com-recsys. Запомни понятия: ABC-анализ, ассортиментная матрица, out-of-stock, оборачиваемость, эластичность, cannibalization, формат магазина.
- Неделя 4 — Python + SQL live coding. 20-30 SQL-задач на оконки и JOIN, 30 задач на pandas (groupby, merge, time-windows).
- Неделя 5 — System Design кейсы. Прорешай 5-6 кейсов: прогноз спроса с двумя форматами, эффект промо, рекомендации в приложении, антифрод в программе лояльности, логистика. Структура — бизнес → метрики → данные → модель → A/B → мониторинг. ML system design.
- Неделя 6 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с категорийным менеджером, факап в проде, история про быстрый пилот, кейс с обоснованием простой модели вместо сложной.
Частые ошибки
Хайпуют сложными моделями. Кандидат предлагает Temporal Fusion Transformer для прогноза спроса по 30 000 SKU. Не учитывает, что на длинных хвостах простые методы выигрывают по cost/quality. Балл проседает.
Не разбираются в ритейл-метриках. «MAPE низкий — модель хорошая». Не упоминают, что overforecast и underforecast стоят разные деньги (overforecast → списания скоропортящегося, underforecast → out-of-stock и потерянный клиент). Если в ответе нет ни слова про экономику ошибок — балл проседает.
Игнорируют разницу форматов. Гипермаркет и формат «у дома» — разные модели спроса. Кандидат, который рассказывает про одну универсальную модель, теряет балл.
Не задают вопросы про данные. На кейсе сразу — модель, а не «что есть в чеках, какая частота, какие пропуски, как мы собираем данные о промо». Это первый фильтр.
Не понимают международный наследие. Ашан — международная сеть, часть процессов из группы. На финале кандидат, который ругает «корпоративные стандарты» вообще, рискует получить -1. Лучше — «понимаю, что есть стандарты группы, в прошлом работал с такими-то рамками».
Связанные темы
- Собеседование на Data Scientist
- Time series на собесе
- ML system design
- Собеседование на ML Engineer в Ашан
- Собеседование на Data Scientist в Магнит
FAQ
Удалёнка в Ашане для DS?
Преимущественно гибрид с офисом в Москве. Полная удалёнка возможна точечно для senior+ при согласовании. Уточняйте на скрининге.
Зарплатные вилки 2026?
Middle DS: 230-360k. Senior: 360-540k. Lead/Staff — выше, особенно в e-com и pricing. Бонусная схема привязана к KPI команды и группы.
Нужен ли английский?
Базовый — для документации. Свободного говорящего не требуется, но для коммуникации с командами группы Auchan на отдельных проектах английский может потребоваться.
Сколько этапов?
4-5 этапов, 4-5 недель от первого скрининга до оффера. Без избыточных согласований, но международная отчётность добавляет шаг.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам.