Собеседование на Data Scientist в Иви
Содержание:
Почему Иви — особенный работодатель для DS
Иви — крупнейший независимый российский VOD-сервис: миллионы активных подписчиков, библиотека из десятков тысяч фильмов, сериалов и шоу, оригинальный контент собственного производства, гибридная монетизация (подписка + ad-supported tier). Это один из самых зрелых медиа-продуктов на RU-рынке с серьёзной recommender-инфраструктурой и многолетней историей продуктовой аналитики. Для Data Scientist это работа с подписочной моделью на масштабе и плотный микс ML-задач — от рекомендаций и retention до NLP и computer vision.
ML-домены: ранжирование контента на главной и в подборках (двухбашенные retrieval + Catboost/нейросети для ранжирования), персонализация секций («продолжить смотреть», «новинки для вас», «похожее»), retention prediction (D7 / D30 / D90 для подписчиков, churn-классификация), uplift-моделирование для CRM (когда послать оффер на удержание), маркетинговая атрибуция и LTV для performance-каналов, NLP (модерация рецензий, классификация тем, поиск дубликатов), video-AI (теги к контенту, постер-генерация, превью), search-ранжирование. Стек: Python, CatBoost, PyTorch, ClickHouse, Spark, Airflow, MLflow, внутренние сервисы для серверного A/B-фреймворка и feature store.
Актуальные вакансии — на hh.ru и сайте Иви.
Информация основана на публичных источниках и опыте кандидатов. Команды Иви используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
Цикл занимает 3–5 недель и включает 5–6 этапов. Процесс структурированный: отдельная техническая секция, отдельная продуктовая, отдельный кейс по A/B.
1. HR-скрининг (30–45 минут)
Рекрутер проверяет фон: production-опыт DS (минимум 1.5–2 года), интерес к медиа-домену, причины смены работы, ожидания. Опыт работы с recommender-системами, NLP или подписочными продуктами — сильный плюс. Подготовь питч 60–90 секунд: имя, ключевые проекты, эффект на бизнес-метрику.
2. Тестовое задание (3–5 дней) — для middle и senior
Часть команд даёт тестовое: датасет с историей просмотров (анонимизированный или симулированный), нужно построить модель recommendation или churn. Оценивается процесс выбора признаков, валидация и интерпретация — не только метрика модели. Сильные кандидаты обсуждают cold start, popularity bias и diversity до того, как их спросят.
3. ML / DS-теория (60–90 минут)
С senior DS из команды. Темы: классическая ML (бустинги, регуляризация, метрики), recommender-теория (collaborative filtering, ALS, двухбашенные нейросети, contextual bandits), ranking-метрики (NDCG, MAP, MRR — разница и когда какая важнее), uplift-моделирование, survival-анализ для подписочного retention, embeddings и Word2Vec/item2vec. Готовься объяснять выбор retrieval-vs-ranking архитектуры.
Подготовка: Классическая ML на собесе, Метрики модели.
4. Python + SQL live-coding (60–90 минут)
Live: 1–2 алгоритмических задачи (LeetCode Medium), 1–2 задачи на pandas / SQL по данным просмотров. SQL-пример: «дан лог просмотров — посчитай D30-retention по когортам подписки и сравни между tariff plans». Готовься: LeetCode (60+ задач), pandas chained ops, оконные функции SQL.
Подготовка: Live-coding.
5. A/B-секция (60 минут)
Спрашивают: дизайн эксперимента, sample size, MDE, ratio-метрики, peeking, switchback (когда применим в VOD — обычно ограничено, но релевантно для контентных подборок), CUPED, multiple testing, как анализировать долгосрочные эффекты (LTV измеряется месяцами, а тест идёт 2–4 недели). Готовь конкретные кейсы из работы с цифрами.
Подготовка: A/B и causal inference.
6. ML system design / продуктовый кейс (60–90 минут)
Кейсы вида: «спроектируй рекомендательную систему для главной Иви», «как ты бы построил churn prediction для подписчиков», «придумай ML-feature для удержания на ad-tier». Сильные ответы — где обсуждаются метрики, baseline, итерации, A/B-план, мониторинг. Слабые — где сразу прыгают в архитектуру модели.
Подготовка: ML system design.
7. Поведенческое (30–45 минут)
С тимлидом и менеджером. STAR-формат: конфликт, факап, инициатива. Проверяют ownership и адекватность в команде. Часть собеса может быть неформальной — компания ценит культурный fit.
Особенности по командам
Recommendation. Главная команда: ранжирование на главной, «продолжить смотреть», «похожее», подборки. Большая по численности, активно работает в связке с продуктовыми менеджерами и редакторами. Стек — двухбашенная retrieval + ranking на CatBoost/нейросетях. Главные челленджи: cold start для нового контента и новых пользователей, баланс «свежее vs популярное», explore/exploit. Подойдёт DS с опытом recsys в e-commerce или больших медиа.
Retention & subscription analytics. Прогноз churn, реактивация спящих, uplift для CRM-кампаний, оптимизация trial-периода и paywall-сценариев. Тесная связка с продуктом и финансами. Подойдёт DS с background в banking-scoring или маркетинг-аналитике подписочных продуктов.
Marketing & UA. Атрибуция, прогноз ROI кампаний, MMM, оптимизация креативов через ML, прогноз LTV для performance-маркетинга. Тесная связка с маркетинг-командой. Подойдёт DS с опытом в performance-маркетинге крупного e-commerce.
Content Intelligence (video-AI + NLP). Тегирование контента, генерация постеров, ASR, классификация рецензий, sentiment, search-ранжирование. Mix CV и NLP, активно работает с PyTorch и LLM-инструментами. Подойдёт DS с research-background и опытом обработки видео или текста на масштабе.
Search & Discovery. Поисковое ранжирование внутри Иви: запросы с опечатками, многоязычность, поиск по сюжету. Команда использует learning-to-rank подходы. Подойдёт DS с search-background.
Pricing & Promo ML. Команда отвечает за динамическое ценообразование и оптимизацию промо-кампаний: какой оффер показать, какой триал предложить, как сегментировать аудиторию для скидок. Тесная связка с маркетингом и продуктом. Подойдёт DS с background в pricing-аналитике или revenue management.
Ad Tech & Ad-Tier ML. Меньше команда, но интересная: оптимизация показа рекламы на ad-supported tier, recommendation рекламных креативов под аудиторию, прогноз эффективности рекламных кампаний рекламодателей. Mix recsys и AdTech-задач. Подойдёт DS с background в performance advertising или programmatic.
Что Иви ценит в DS
Продуктовое мышление. Слабый ответ: «обучил recommender, NDCG@10 = 0.42». Сильный: «обучил double-tower recsys, в A/B на 30% трафика за 14 дней получили +2.8% time-spent и +1.1pp D30-retention, p < 0.01, после раскатки эффект сохранился; бизнес-эффект — около +X тыс. retained subscribers в квартал». Цифры решают.
Понимание подписочной экономики. LTV, payback period, retention curves, разница между gross / net adds — must-know. Если ты не понимаешь, чем подписка отличается от транзакционной модели, секция продукта провалится.
Глубина в эксперименте. A/B-инфраструктура Иви зрелая, кандидат обязан говорить про дизайн на одном уровне с интервьюером. Знание delta-method для ratio-метрик и CUPED для дисперсии — норма для middle+.
Готовность работать с медиа-контекстом. Знать актёрский состав необязательно, но понимать жанровую структуру каталога, разницу между киноклассикой и оригинальным сериалом, продуктовую логику «прогревов» новинок — обязательно.
Командная адекватность. Кросс-функциональная работа с продактами, редакторами, маркетингом — норма. Готовность объяснять модели non-tech коллегам.
Как готовиться: план
Минимум 6–8 недель. Неделя 1–2: ML-теория (классика, recsys-метрики, ranking). Неделя 3: LeetCode + pandas (60+ задач). Неделя 4: SQL — оконные функции, ratio-метрики, retention-формулы. Неделя 5: A/B — теория, расчёт MDE, CUPED, ratio. Неделя 6: ML system design — отработай 4 кейса (recsys, churn, content intelligence, search). Неделя 7: подготовь STAR-истории. Неделя 8: подпишись на Иви, изучи продукт глазами пользователя, mock-интервью.
Для тренировки реальных вопросов с собесов DS — открывай Карьерник: 1500+ задач по SQL, Python, A/B-тестам, статистике, продуктовой аналитике и ML по темам и сложности.
Частые ошибки
Первая — recsys из учебника без понимания продуктовых ограничений. Иви — реальный сервис с реальными ограничениями: latency на главной, дополнительные требования от редакторов («новинки в первую неделю — приоритет»), регуляторные ограничения по контенту. Если ты предлагаешь «возьмём BERT для embeddings» без обсуждения latency и стоимости — это сигнал, что не работал в проде.
Вторая — игнорирование подписочной экономики. Кандидаты часто фокусируются на retention в краткосрочке, забывая, что paywall-конверсия и LTV — то, что реально интересует бизнес.
Третья — отсутствие культурного fit. Иви — не Яндекс по стилю работы: меньше формализма, больше горизонтальной коммуникации. Если ты привык работать только по строгому процессу — будет сложно.
Четвёртая — слабая разница между recommendation для главной и для «похожее». Это разные задачи с разными метриками и архитектурой.
Связанные темы
- Собеседование на Data Scientist в Okko
- Собеседование на Data Scientist в Premier
- Собеседование на ML Engineer в Кинопоиск
- Собеседование на Data Scientist — гайд
FAQ
Сколько этапов в собесе DS в Иви?
5–7 этапов: HR-скрининг, тестовое (для middle+), ML / DS-теория, Python + SQL live-coding, A/B-секция, ML system design / продуктовый кейс, поведенческое. Цикл — 3–5 недель.
Нужен ли опыт именно в медиа?
Желателен, но не обязателен. Сильный опыт в recommender / retention в e-commerce или большом marketplace подходит. Обязательно — установи Иви и изучи продукт перед собесом.
Какой LTV-горизонт в Иви?
Зависит от tariff plan и сегмента. Подписочный LTV измеряется месяцами, иногда годами, что усложняет A/B-валидацию (короткий тест не показывает полный эффект). На собесе хороший ответ — обсуждение proxy-метрик и долгосрочного monitoring.
Какой английский нужен?
B1–B2 минимум. Внутренние коммуникации в основном на русском, документация — двуязычная.
Сколько платят DS в Иви?
Зависит от грейда. Для middle DS — на уровне крупных tech-компаний РФ (Яндекс / Тинькофф / VK), для senior — выше рыночного. Recsys-команда обычно платит больше, чем общая аналитика.