Собеседование на Data Scientist в START

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему START — особенный работодатель для DS

START — российский VOD-сервис, специализирующийся на оригинальном российском контенте: собственные сериалы, шоу, документальные проекты. По размеру аудитории заметно меньше Иви, Okko или Wink, но активно растёт и инвестирует в премиум-оригинал. Для Data Scientist это компактная среда с прямым влиянием на продукт: команды небольшие, каждый DS виден, скорость итераций высокая. Технологически — модерн-стек, минимум легаси, фокус на pragmatic ML, не на исследовании.

ML-домены: ранжирование контента и подборок, retention prediction (особенно вокруг релизов оригинала — «удержит ли новый сериал подписчика после первой серии»), churn / реактивация, propensity-to-pay для апсейла, audience prediction для нового контента (прогноз популярности до релиза по метаданным и историческим аналогам), NLP (модерация рецензий, классификация запросов), оптимизация промо-кампаний. Стек: Python, CatBoost, PyTorch, ClickHouse, Airflow, MLflow, внутренний A/B-фреймворк.

Актуальные вакансии — на hh.ru и сайте START.

Информация основана на публичных источниках и опыте кандидатов. Команды START используют разные процессы — уточняйте у рекрутера.

Этапы собеседования

Цикл 2–4 недели и включает 4–5 этапов. Процесс короткий и менее формализованный, чем в крупных VOD-сервисах. Меньше формальных секций, больше разговора по продукту и опыту.

1. HR-скрининг (30–40 минут)

Рекрутер проверяет: production-опыт DS (1+ год), интерес к медиа и оригинальному контенту, причины смены работы, ожидания. Опыт в подписочных продуктах или recsys — плюс. Питч 60–90 секунд: имя, основные проекты, эффект на бизнес-метрику.

2. Тестовое задание (2–4 дня)

Часто даётся: датасет с просмотрами, нужно построить модель recommendation или retention. Объём задания меньше, чем в Иви / Okko, но требования к чистоте кода и интерпретации — одинаково высокие. Сильные кандидаты делают чистый notebook и обсуждают cold start для нового контента.

3. ML / DS-теория (60 минут)

С senior DS из команды. Темы: классика (бустинги, регуляризация, метрики), recommender-теория (CF, ALS, двухбашенные модели), ranking-метрики (NDCG, MAP), uplift, survival анализ. Доп. блок: time-series методы для прогноза аудитории нового шоу.

Подготовка: Классическая ML на собесе, Time series на собесе.

4. Python + SQL live-coding (60 минут)

Live: 1–2 алгоритмических задачи (LeetCode Easy-Medium), 1–2 на pandas / SQL по медиа-данным. SQL обычно классический: оконные функции, GROUP BY с фильтрами. Уровень ниже Сбер-стандарта, ближе к среднему рыночному.

Подготовка: Live-coding.

5. A/B + продуктовая секция (60–90 минут)

Спрашивают: дизайн эксперимента, sample size, MDE, ratio-метрики. Продуктовая часть: «как измерить эффект релиза нового сериала», «как оптимизировать промо», «как сегментировать платящих по жанровым предпочтениям». Готовь конкретные кейсы и истории про оригинал-контент в продуктах, в которых работал.

Подготовка: A/B и causal inference.

6. Поведенческое + культурный fit (30–45 минут)

С тимлидом и/или продактом. STAR-формат: конфликт, факап, инициатива. START — компактная и сильно продукт-ориентированная компания, ценит DS, которые любят сам продукт, а не только модели.

Особенности по командам

Content recommendation. Меньше команда: ранжирование на главной, подборки. Фокус на оригинал-контент, что требует моделей с учётом новизны и эффекта промо. Подойдёт DS с recsys-background.

Retention & Subscription. Прогноз churn, реактивация, оптимизация trial и paywall. Важная задача — измерение эффекта релиза оригинал-сериалов на retention.

Content Marketing & Audience Analytics. Прогноз аудитории нового шоу до релиза, оптимизация промо-кампаний, измерение долгосрочного эффекта оригинал-контента. Mix time-series и продуктовой аналитики. Подойдёт DS с интересом к контенту и навыками прогнозирования.

Search & NLP. Меньше команда: модерация рецензий, поиск, классификация запросов. Подойдёт DS с базовым NLP-background.

Marketing & UA. Атрибуция, прогноз ROI кампаний, performance-маркетинг. Объёмы меньше, чем у Иви / Okko, проще итерировать.

Audience Insights & Editorial Support. Поддержка редакторов оригинал-контента: какие жанры растут, какие сегменты аудитории отзывчивы на конкретные форматы, какие комбинации работают в продакшене. Подойдёт DS, который любит качественную сторону данных и готов работать в тесном контакте с творческими командами.

Pricing & Promo Experiments. Меньше команда: оптимизация триальных сценариев, тарифной сетки, дифференцированных офферов. Эксперименты идут плотно из-за компактности базы — итерации быстрые.

Что START ценит в DS

Интерес к контенту. Это медиа-компания, и интерес к сериалам и шоу — серьёзный сигнал на собесе. Кандидат, который смотрит проекты START и может с продакт-менеджером предметно обсудить продукт, выглядит сильнее.

Скорость итераций. Студия любит pragmatic ML. Если ты привык писать неделю спецификацию перед первой моделью, это будет минусом. Strong: умение быстро сделать MVP-модель и итерировать.

Самостоятельность. Компактные команды — нет менеджера, который ведёт за руку. Способность брать задачу и доводить до результата с минимальным контекстом — критично.

Цифры в кейсах. Weak: «строил retention-модель». Strong: «обучил retention-prediction CatBoost на 500k подписчиков, time-based валидация, в A/B на 30% за 14 дней +1.2pp D30-retention для group exposed-to-original, p < 0.05, бизнес-эффект ~+X тыс. retained subscribers в квартал». Цифры обязательны.

Готовность работать вне стандартных recsys-шаблонов. START активно экспериментирует, и стандартные подходы из учебника часто не подходят (например, fresh-релиз обычно «прогревается» одной маркетинговой кампанией, и модель должна это учитывать).

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

Минимум 4–5 недель. Неделя 1–2: ML-теория (классика, recsys, time-series). Неделя 3: LeetCode + pandas (40 задач). Неделя 4: SQL + A/B. Неделя 5: подпишись на START, посмотри 1–2 оригинал-проекта, прочитай статьи про прогноз аудитории VOD-контента, подготовь STAR-истории.

Для тренировки реальных вопросов с собесов в DS — заходи в Карьерник: 1500+ задач по SQL, Python, A/B, статистике и ML, разбиты по темам и сложности.

Частые ошибки

Первая — отсутствие интереса к контенту. Если на собесе ты говоришь «не смотрю сериалы», но идёшь в команду medi-сервиса с фокусом на оригинал, читается как отсутствие мотивации. Лучше посмотри 1–2 проекта.

Вторая — recsys-из-учебника без понимания content-marketing-специфики. Модели должны учитывать релиз-календарь и промо-эффекты, не только историческое поведение юзеров.

Третья — слишком формальный подход. START любит быстрые итерации, и кандидат, который привык работать только по жёстким процессам, будет страдать.

Четвёртая — недооценка важности продуктового мышления. На вопрос «что бы ты улучшил в продукте» нет правильного «учебного» ответа: интервьюер ждёт конкретики по конкретной механике или сегменту. Сильный ответ — «я заметил, что в трейлере третьей серии шоу X не показывают ключевой поворотный момент сюжета, а на странице сериала превью первой серии длиннее, чем у конкурентов; я бы проверил A/B-тестом сокращение превью и более активное отображение второй серии в подборке "продолжить смотреть"». Слабый — «улучшил бы onboarding».

Пятая — недооценка важности нестандартных метрик в компактных компаниях. Когда у тебя 500k подписчиков и не 50 млн, классические A/B-тесты страдают от низкой статистической мощности. Сильный кандидат на собесе сам поднимает этот вопрос и обсуждает sequential testing, Bayesian подходы, switchback-эксперименты и proxy-метрики, которые позволяют делать выводы быстрее. Слабый — пытается применять схемы из крупных компаний без учёта объёма данных.

Связанные темы

FAQ

Сколько этапов в собесе DS в START?

4–5 этапов: HR-скрининг, тестовое задание, ML / DS-теория, Python + SQL live-coding, A/B + продуктовая секция, поведенческое. Цикл — 2–4 недели.

Нужен ли опыт именно в медиа?

Желателен. Если нет — установи START перед собесом, посмотри 1–2 оригинал-проекта.

Чем отличается DS в START от DS в Premier?

START меньше по аудитории, более pragmatic-ориентированный, меньше формализма. Premier — средняя по размеру компания с более структурированным процессом. По сути роли близки.

Какой английский нужен?

B1 минимум. Внутренние коммуникации в основном на русском, документация и часть инструментов могут содержать английский текст; готовность читать технические материалы на нём важна для middle и senior грейдов.

Сколько платят DS в START?

Зависит от грейда. Для middle DS — на уровне крупных RU tech-компаний, для senior — близко к рынку. Компактные команды компенсируют это интересными задачами и быстрой обратной связью.

Берут ли DS-джунов?

Редко. Обычно — middle и senior. Junior-роли встречаются в формате аналитика с возможностью роста в DS через 1–2 года, через тестовое задание и пилотные проекты. Если ты junior — заходи через сильное тестовое и интерес к продукту.

Какие проекты студии стоит посмотреть перед собесом?

Хотя бы один из флагманских оригинал-сериалов и одно шоу. На собесе спрашивают, что смотрел и как бы измерил эффект конкретного релиза, и это серьёзный сигнал для интервьюера.

Сильно ли отличается DS-роль в START от классической e-commerce-аналитики?

Базовый ML-инструментарий тот же. Главные отличия: длинный horizon метрик (LTV измеряется месяцами), важность контентного контекста и оригинал-релизов, прямая связка с редакторами и продуктом.