Собеседование на Data Scientist в Ленту
Содержание:
Почему Лента — особенный работодатель для DS
Лента — один из крупнейших российских ритейлеров: больше 700 магазинов разных форматов (гипермаркеты, супермаркеты, «у дома», ВкусВилл-совместимая дискаунтерная сеть «Семишагофф» после ребрендинга и интеграций), доставка через собственное приложение, программа лояльности с десятками миллионов держателей карт. Для Data Scientist это значит работу в зрелой ритейл-аналитике, где задачи похожи на Магнит и X5, но команда меньше, скорость пилотов выше, бизнес-вопросы порой острее (Лента активно перестраивает форматы и менеджит маржу очень внимательно).
Главные ML-домены: прогноз спроса по SKU и магазину, управление ассортиментом и assortment-rebalancing между форматами, ценообразование и promo-аналитика, персональные рекомендации в карте лояльности и приложении доставки, прогноз оттока программы лояльности, оптимизация логистики между распределительными центрами и магазинами разных форматов, иногда — анализ корзины и кросс-сейл. CV-задач немного (полочные камеры в гипермаркетах есть, но не массово), NLP — точечно для аналитики отзывов и обращений в поддержку.
Стек: Python + Catboost + LightGBM + Prophet/statsmodels + scikit-learn; ClickHouse и Greenplum для аналитики; Airflow для пайплайнов; Spark и Hive для распределённых вычислений; MLflow для трекинга. Часть моделей встроена в производственные пайплайны дозаказа, часть — в управленческую аналитику. Архитектура — классический энтерпрайз-DWH с активной модернизацией под современный ML-стек.
Актуальные вакансии — на hh.ru и сайте Ленты.
Информация основана на публичных источниках и опыте кандидатов. Команды Ленты используют разные процессы — формат и этапы зависят от направления и грейда, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 3-5 недель, 4-5 этапов. Процесс прагматичный, без избыточных раундов: HR-скрининг, ML-теория, кодинг, продуктовый кейс, финал. Алгоритмическая планка средняя, без LeetCode Hard. Скрининг плотный — Лента не любит тратить время команды на кандидатов без production-опыта.
1. HR-скрининг (30 минут)
Рекрутер уточняет: production-опыт ML (от 1 года, желательно с табличными данными или time-series), знание ритейл-контекста или готовность быстро его выучить, мотивацию идти именно в Ленту (а не в Магнит/X5/Wildberries), ожидания по компенсации и формату работы (Санкт-Петербург или Москва — основные HR-центры). Если работал в e-com, банке или у другого ритейлера — упомяни в первые 60 секунд. Готовь питч на 90 секунд: что делал, какие модели в проде, какой эффект на бизнес-метрику.
2. ML-теория (60-75 минут)
Базовая секция со старшим DS из направления. Темы: градиентный бустинг (Catboost/LightGBM — почему именно они для табличных данных, как обработать категориальные фичи большой размерности, регуляризация), классические методы (логистическая регрессия и её интерпретация, метрики классификации, ROC-AUC vs PR-AUC при дисбалансе), feature engineering для чеков и SKU, time-series (Prophet, ARIMA, hierarchical-методы для тысяч рядов, anti-leakage), эластичность спроса и promo-эффекты. Глубоких DL-вопросов нет. Будь готов разобрать кейс «как ты бы предсказывал спрос на SKU, который только что появился в матрице».
Подготовка: классическая ML, time series, feature engineering.
3. Python + SQL live coding (60 минут)
Задачи прагматичные: 1-2 на Python (структуры данных, простая динамика, работа с pandas), 1-2 на SQL (агрегаты, JOIN, оконные функции). Часто встречается живой кейс из ритейла: «дам тебе фрейм с чеками, посчитай top-10 SKU по росту продаж между двумя периодами». Без LeetCode Hard. Готовиться: 20-30 SQL-задач уровня Medium на оконки и JOIN + 30-50 простых задач на pandas.
Подготовка: live coding.
4. Кейс / Product Design (60-90 минут)
Основная ставка интервью. Кейс — продуктовый или бизнес: «спроектируй модель прогноза спроса для гипермаркета», «как ты бы оценил эффект промо-кампании на категорию», «как сделать рекомендации в приложении доставки Ленты, чтобы они увеличивали средний чек, а не каннибализировали маржу». Нужно: уточнить бизнес-метрику и цель, описать данные (чеки, карта лояльности, ассортимент, логистика), выбрать модель и обосновать выбор, продумать пайплайн и регулярность переобучения, обсудить trade-off скорости и точности, заложить мониторинг и A/B. Слабые ответы — где кандидат строит огромную модель сразу; сильные — где видно понимание trade-off и опыт промышленных проблем (out-of-stock, cannibalization, разные форматы магазинов).
Подготовка: ML system design, метрики модели.
5. Финал с тимлидом / руководителем направления (45 минут)
Беседа с тимлидом или руководителем. Проверяют поведенческие истории (STAR), отношение к практической работе (data quality, разметка, починка пайплайнов — будни DS в ритейле), готовность работать с категорийными менеджерами и операционкой, иногда обсуждают формат удалёнки или переезд. Здесь редко отказывают, но цифры могут поджать.
Особенности по командам
Прогноз спроса и assortment. Самая большая ML-команда: тысячи временных рядов SKU × магазин, прогноз на горизонт от дня до квартала, оптимизация дозаказа и ассортиментной матрицы по форматам. Стек — Python + Catboost + Prophet + Spark + ClickHouse. Главные челленджи: гипермаркеты vs «у дома» — разные модели спроса, длинные хвосты SKU, влияние промо. Подойдёт кандидатам с background в supply-chain forecasting или ритейл-DS.
Pricing и promo-аналитика. Команда строит модели эластичности спроса и оценки эффекта промо. Стек — Catboost + эконометрика + кастомные симуляторы. Челлендж — отделить эффект цены от прочих факторов и учесть cannibalization между близкими SKU. Подойдёт DS с эконометрическим бэкграундом или серьёзным опытом в А/B-тестах.
CRM и программа лояльности. Команда занимается персональными рекомендациями в приложении, прогнозом оттока программы лояльности, сегментацией клиентов и оптимизацией маркетинговых кампаний. Стек — Catboost + matrix factorization + two-tower-сети + Greenplum. Челлендж — миллионы клиентов с разреженной историей покупок, балансировка релевантности и маржи. Подойдёт кандидатам с опытом recsys в e-com или crm-аналитике в банке.
Логистика и operations DS. Прогноз нагрузки на распределительные центры, оптимизация маршрутов между РЦ и магазинами разных форматов, прогноз потерь и порчи. Стек — Python + классический ML + OR-методы (linear programming, vehicle routing). Подойдёт DS с математическим бэкграундом и интересом к operations research.
E-com / онлайн-доставка DS. Команда, занимающаяся аналитикой приложения и онлайн-заказов: конверсия, retention в доставке, оптимизация порядка показа SKU, антифрод при оплате. Стек — Catboost + классический recsys + А/B. Подойдёт кандидатам с опытом в e-com.
Что Лента ценит в DS
Production-опыт. Не Kaggle-experience, а модель в проде с количественным эффектом. История «обучил классификатор оттока на банковских данных, +1.8% retention в когортном тесте, прод на K8s» бьёт любую медаль на соревнованиях.
Понимание ритейл-метрик. Не обязательно работал в ритейле, но базовые понятия (SKU, ассортиментная матрица, out-of-stock, маржа, оборот, оборачиваемость, корзина, ABC-анализ) должны быть знакомы. На кейсе сразу видно, если человек путает выручку и маржу.
Прагматизм над хайпом. В Ленте ценят «давай попробуем Catboost», а не «возьмём transformer». Кандидат, который на System Design предлагает MLP на 50 фичах, получит -1.
Weak vs strong на System Design. Слабый ответ: «возьмём ансамбль LSTM и Prophet для всех SKU». Сильный ответ: «начну с naive (mean by SKU+магазин+неделя), сравню с Prophet и Catboost на лагах. Учитывая, что у нас два разных формата (гипермаркеты и «у дома»), скорее всего нужны две разные модели: для гипермаркетов больше выборка и стабильный спрос — заходит Catboost на лагах, для „у дома“ выборка маленькая, лучше иерархическая модель с pool-эффектом и Prophet с автоматической сезонностью».
Готовность работать с бизнесом. DS в Ленте плотно работает с категорийными менеджерами и операционкой. Умение объяснить модель на бизнес-языке — ежедневная компетенция.
Скорость пилота. Лента научилась быстро пилотировать идеи. Кандидат, который месяц настраивает идеальный пайплайн, менее интересен, чем тот, кто за неделю выкатывает работающий прототип.
Как готовиться: план
За 4-6 недель до планируемого собеса:
- Неделя 1-2 — Табличный ML и time-series. Catboost/LightGBM (категориальные фичи, регуляризация, ordered boosting), валидация для рядов (rolling-origin), Prophet и ARIMA, hierarchical-методы. Прорешай 1-2 Kaggle-кейса на ритейл-данных (Rossmann, Favorita). Параллельно — на Карьернике закрой пробелы по базе ML, SQL и Python: 1500+ задач с разбивкой по темам, по 15-20 минут в день, чтобы к собесу не путаться в базовых вопросах вроде «что такое overfitting и как его поймать на валидации».
- Неделя 3 — Ритейл-контекст. Прочитай блоги X5 Tech, Wildberries Tech, Lenta Insights, статьи по retail-forecasting. Запомни понятия: ABC-анализ, ассортиментная матрица, out-of-stock, оборачиваемость, эластичность, cannibalization, формат магазина.
- Неделя 4 — Python + SQL live coding. 20-30 SQL-задач на оконки и JOIN, 30 задач на pandas (groupby, merge, time-windows).
- Неделя 5 — System Design кейсы. Прорешай 5-6 кейсов: прогноз спроса с двумя форматами, эффект промо, рекомендации в приложении, антифрод в доставке, логистика РЦ → магазин. Структура — бизнес → метрики → данные → модель → A/B → мониторинг. ML system design.
- Неделя 6 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с категорийным менеджером, факап в проде, история про быстрый пилот, кейс с обоснованием простой модели вместо сложной.
Частые ошибки
Хайпуют сложными моделями. Кандидат предлагает Temporal Fusion Transformer для прогноза спроса по 30 000 SKU без вопроса «а сколько у нас данных по каждому SKU?». На длинных хвостах простые методы выигрывают, и Лента это знает.
Не разбираются в ритейл-метриках. «MAPE низкий — модель хорошая». Не упоминают, что в ритейле overforecast и underforecast стоят разные деньги. Если в ответе нет ни слова про экономику ошибок — балл проседает.
Игнорируют разницу форматов. В Ленте два больших формата: гипермаркеты и «у дома». Кандидат, который рассказывает про одну универсальную модель, теряет балл — нужны разные подходы.
Не задают вопросы про данные. На кейсе сразу — модель, а не «что есть в чеках, какая частота, какие пропуски, как мы собираем данные о промо». Это первый фильтр.
Не понимают разницу retention в ритейле. Кандидат рассказывает про DAU/MAU, как в SaaS. В ритейле retention — это возврат покупателя в магазин и доля кошелька, а не открытие приложения.
Связанные темы
- Собеседование на Data Scientist
- Time series на собесе
- ML system design
- Собеседование на ML Engineer в Ленту
- Собеседование на аналитика в Ленту
FAQ
Удалёнка в Ленте для DS?
Преимущественно гибрид с офисами в Санкт-Петербурге и Москве. Полная удалёнка возможна для senior+ при согласовании, но это не правило. Уточняйте на скрининге.
Зарплатные вилки 2026?
Middle DS: 230-370k. Senior: 370-570k. Lead/Staff — выше, особенно в прогнозе спроса и pricing. Бонусная схема привязана к KPI команды.
Нужен ли английский?
Базовый — для документации. Свободного говорящего не требуется, клиенты и команды русскоязычные.
Сколько этапов?
4-5 этапов, 3-5 недель от первого скрининга до оффера. Процесс быстрее, чем в банках, без избыточных согласований.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам.