Собеседование на Data Scientist в START
Содержание:
Почему START — особенный работодатель для DS
START — российский VOD-сервис, специализирующийся на оригинальном российском контенте: собственные сериалы, шоу, документальные проекты. По размеру аудитории заметно меньше Иви, Okko или Wink, но активно растёт и инвестирует в премиум-оригинал. Для Data Scientist это компактная среда с прямым влиянием на продукт: команды небольшие, каждый DS виден, скорость итераций высокая. Технологически — модерн-стек, минимум легаси, фокус на pragmatic ML, не на исследовании.
ML-домены: ранжирование контента и подборок, retention prediction (особенно вокруг релизов оригинала — «удержит ли новый сериал подписчика после первой серии»), churn / реактивация, propensity-to-pay для апсейла, audience prediction для нового контента (прогноз популярности до релиза по метаданным и историческим аналогам), NLP (модерация рецензий, классификация запросов), оптимизация промо-кампаний. Стек: Python, CatBoost, PyTorch, ClickHouse, Airflow, MLflow, внутренний A/B-фреймворк.
Актуальные вакансии — на hh.ru и сайте START.
Информация основана на публичных источниках и опыте кандидатов. Команды START используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
Цикл 2–4 недели и включает 4–5 этапов. Процесс короткий и менее формализованный, чем в крупных VOD-сервисах. Меньше формальных секций, больше разговора по продукту и опыту.
1. HR-скрининг (30–40 минут)
Рекрутер проверяет: production-опыт DS (1+ год), интерес к медиа и оригинальному контенту, причины смены работы, ожидания. Опыт в подписочных продуктах или recsys — плюс. Питч 60–90 секунд: имя, основные проекты, эффект на бизнес-метрику.
2. Тестовое задание (2–4 дня)
Часто даётся: датасет с просмотрами, нужно построить модель recommendation или retention. Объём задания меньше, чем в Иви / Okko, но требования к чистоте кода и интерпретации — одинаково высокие. Сильные кандидаты делают чистый notebook и обсуждают cold start для нового контента.
3. ML / DS-теория (60 минут)
С senior DS из команды. Темы: классика (бустинги, регуляризация, метрики), recommender-теория (CF, ALS, двухбашенные модели), ranking-метрики (NDCG, MAP), uplift, survival анализ. Доп. блок: time-series методы для прогноза аудитории нового шоу.
Подготовка: Классическая ML на собесе, Time series на собесе.
4. Python + SQL live-coding (60 минут)
Live: 1–2 алгоритмических задачи (LeetCode Easy-Medium), 1–2 на pandas / SQL по медиа-данным. SQL обычно классический: оконные функции, GROUP BY с фильтрами. Уровень ниже Сбер-стандарта, ближе к среднему рыночному.
Подготовка: Live-coding.
5. A/B + продуктовая секция (60–90 минут)
Спрашивают: дизайн эксперимента, sample size, MDE, ratio-метрики. Продуктовая часть: «как измерить эффект релиза нового сериала», «как оптимизировать промо», «как сегментировать платящих по жанровым предпочтениям». Готовь конкретные кейсы и истории про оригинал-контент в продуктах, в которых работал.
Подготовка: A/B и causal inference.
6. Поведенческое + культурный fit (30–45 минут)
С тимлидом и/или продактом. STAR-формат: конфликт, факап, инициатива. START — компактная и сильно продукт-ориентированная компания, ценит DS, которые любят сам продукт, а не только модели.
Особенности по командам
Content recommendation. Меньше команда: ранжирование на главной, подборки. Фокус на оригинал-контент, что требует моделей с учётом новизны и эффекта промо. Подойдёт DS с recsys-background.
Retention & Subscription. Прогноз churn, реактивация, оптимизация trial и paywall. Важная задача — измерение эффекта релиза оригинал-сериалов на retention.
Content Marketing & Audience Analytics. Прогноз аудитории нового шоу до релиза, оптимизация промо-кампаний, измерение долгосрочного эффекта оригинал-контента. Mix time-series и продуктовой аналитики. Подойдёт DS с интересом к контенту и навыками прогнозирования.
Search & NLP. Меньше команда: модерация рецензий, поиск, классификация запросов. Подойдёт DS с базовым NLP-background.
Marketing & UA. Атрибуция, прогноз ROI кампаний, performance-маркетинг. Объёмы меньше, чем у Иви / Okko, проще итерировать.
Audience Insights & Editorial Support. Поддержка редакторов оригинал-контента: какие жанры растут, какие сегменты аудитории отзывчивы на конкретные форматы, какие комбинации работают в продакшене. Подойдёт DS, который любит качественную сторону данных и готов работать в тесном контакте с творческими командами.
Pricing & Promo Experiments. Меньше команда: оптимизация триальных сценариев, тарифной сетки, дифференцированных офферов. Эксперименты идут плотно из-за компактности базы — итерации быстрые.
Что START ценит в DS
Интерес к контенту. Это медиа-компания, и интерес к сериалам и шоу — серьёзный сигнал на собесе. Кандидат, который смотрит проекты START и может с продакт-менеджером предметно обсудить продукт, выглядит сильнее.
Скорость итераций. Студия любит pragmatic ML. Если ты привык писать неделю спецификацию перед первой моделью, это будет минусом. Strong: умение быстро сделать MVP-модель и итерировать.
Самостоятельность. Компактные команды — нет менеджера, который ведёт за руку. Способность брать задачу и доводить до результата с минимальным контекстом — критично.
Цифры в кейсах. Weak: «строил retention-модель». Strong: «обучил retention-prediction CatBoost на 500k подписчиков, time-based валидация, в A/B на 30% за 14 дней +1.2pp D30-retention для group exposed-to-original, p < 0.05, бизнес-эффект ~+X тыс. retained subscribers в квартал». Цифры обязательны.
Готовность работать вне стандартных recsys-шаблонов. START активно экспериментирует, и стандартные подходы из учебника часто не подходят (например, fresh-релиз обычно «прогревается» одной маркетинговой кампанией, и модель должна это учитывать).
Как готовиться: план
Минимум 4–5 недель. Неделя 1–2: ML-теория (классика, recsys, time-series). Неделя 3: LeetCode + pandas (40 задач). Неделя 4: SQL + A/B. Неделя 5: подпишись на START, посмотри 1–2 оригинал-проекта, прочитай статьи про прогноз аудитории VOD-контента, подготовь STAR-истории.
Для тренировки реальных вопросов с собесов в DS — заходи в Карьерник: 1500+ задач по SQL, Python, A/B, статистике и ML, разбиты по темам и сложности.
Частые ошибки
Первая — отсутствие интереса к контенту. Если на собесе ты говоришь «не смотрю сериалы», но идёшь в команду medi-сервиса с фокусом на оригинал, читается как отсутствие мотивации. Лучше посмотри 1–2 проекта.
Вторая — recsys-из-учебника без понимания content-marketing-специфики. Модели должны учитывать релиз-календарь и промо-эффекты, не только историческое поведение юзеров.
Третья — слишком формальный подход. START любит быстрые итерации, и кандидат, который привык работать только по жёстким процессам, будет страдать.
Четвёртая — недооценка важности продуктового мышления. На вопрос «что бы ты улучшил в продукте» нет правильного «учебного» ответа: интервьюер ждёт конкретики по конкретной механике или сегменту. Сильный ответ — «я заметил, что в трейлере третьей серии шоу X не показывают ключевой поворотный момент сюжета, а на странице сериала превью первой серии длиннее, чем у конкурентов; я бы проверил A/B-тестом сокращение превью и более активное отображение второй серии в подборке "продолжить смотреть"». Слабый — «улучшил бы onboarding».
Пятая — недооценка важности нестандартных метрик в компактных компаниях. Когда у тебя 500k подписчиков и не 50 млн, классические A/B-тесты страдают от низкой статистической мощности. Сильный кандидат на собесе сам поднимает этот вопрос и обсуждает sequential testing, Bayesian подходы, switchback-эксперименты и proxy-метрики, которые позволяют делать выводы быстрее. Слабый — пытается применять схемы из крупных компаний без учёта объёма данных.
Связанные темы
- Собеседование на Data Scientist в Иви
- Собеседование на Data Scientist в Premier
- Собеседование на Data Scientist в Okko
- Собеседование на Data Scientist — гайд
FAQ
Сколько этапов в собесе DS в START?
4–5 этапов: HR-скрининг, тестовое задание, ML / DS-теория, Python + SQL live-coding, A/B + продуктовая секция, поведенческое. Цикл — 2–4 недели.
Нужен ли опыт именно в медиа?
Желателен. Если нет — установи START перед собесом, посмотри 1–2 оригинал-проекта.
Чем отличается DS в START от DS в Premier?
START меньше по аудитории, более pragmatic-ориентированный, меньше формализма. Premier — средняя по размеру компания с более структурированным процессом. По сути роли близки.
Какой английский нужен?
B1 минимум. Внутренние коммуникации в основном на русском, документация и часть инструментов могут содержать английский текст; готовность читать технические материалы на нём важна для middle и senior грейдов.
Сколько платят DS в START?
Зависит от грейда. Для middle DS — на уровне крупных RU tech-компаний, для senior — близко к рынку. Компактные команды компенсируют это интересными задачами и быстрой обратной связью.
Берут ли DS-джунов?
Редко. Обычно — middle и senior. Junior-роли встречаются в формате аналитика с возможностью роста в DS через 1–2 года, через тестовое задание и пилотные проекты. Если ты junior — заходи через сильное тестовое и интерес к продукту.
Какие проекты студии стоит посмотреть перед собесом?
Хотя бы один из флагманских оригинал-сериалов и одно шоу. На собесе спрашивают, что смотрел и как бы измерил эффект конкретного релиза, и это серьёзный сигнал для интервьюера.
Сильно ли отличается DS-роль в START от классической e-commerce-аналитики?
Базовый ML-инструментарий тот же. Главные отличия: длинный horizon метрик (LTV измеряется месяцами), важность контентного контекста и оригинал-релизов, прямая связка с редакторами и продуктом.