Собеседование на Data Scientist в Okko

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Okko — особенный работодатель для DS

Okko — один из крупнейших российских VOD-сервисов и часть экосистемы Сбера: подписочная и транзакционная модели, миллионы активных подписчиков, интеграция с СберПрайм и другими продуктами Сбер-экосистемы (СберЗвук, СберБанк, Маркет). Для Data Scientist это работа с медиа-продуктом на масштабе плюс интеграция в большую экосистему: данные о просмотрах могут переплетаться с финансовыми, спортивными и музыкальными сигналами, что даёт уникальные возможности для cross-product ML. Технологически Okko ближе к корпоративному стандарту Сбера: чётко расписанные процессы, продакшен-нативная инфраструктура, серьёзная безопасность данных.

ML-домены: ранжирование контента на главной, персонализация подборок и секций, retention prediction для подписки, churn / реактивация, propensity-to-pay для апсейла на премиум-тариф, NLP (модерация рецензий, классификация запросов), video-AI (теги, постер-генерация), cross-product ML (использование сигналов из СберПрайма / СберБанка для прогноза удержания). Стек: Python, CatBoost, PyTorch, ClickHouse, Spark, Airflow, MLflow, внутренние инструменты Сбера для пайплайнов и feature store.

Актуальные вакансии — на hh.ru и сайте Okko.

Информация основана на публичных источниках и опыте кандидатов. Команды Okko используют разные процессы — уточняйте у рекрутера.

Этапы собеседования

Цикл 4–6 недель и включает 5–7 этапов. Процесс ближе к корпоративному Сбер-стандарту: больше формальных секций, чем у независимых медиа-сервисов, плюс отдельные проверки по безопасности данных для senior-кандидатов.

1. HR-скрининг (30–45 минут)

Рекрутер проверяет: production-опыт DS (1.5+ года), английский, причины смены работы, ожидания, готовность работать в большой корпоративной структуре. Опыт в medi-, e-commerce- или подписочных продуктах — плюс. Питч 60–90 секунд: имя, основные проекты, эффект на бизнес-метрику.

2. Тестовое задание (3–5 дней)

Чаще всего даётся: датасет с историей просмотров (анонимизированный), нужно построить модель recommendation или retention. Оценивается процесс выбора признаков, валидация по времени, бизнес-интерпретация. Сильные кандидаты обсуждают cold start, popularity bias, fairness и не отсекают «непопулярный» контент только потому, что он слабо просмотрен.

3. ML / DS-теория (60–90 минут)

С senior DS из команды. Темы: классика (бустинги, регуляризация, метрики), recommender-теория (CF, ALS, double-tower, contextual bandits), ranking-метрики (NDCG, MAP), uplift-моделирование, survival анализ. Доп. блок для cross-product задач: как объединять сигналы из разных доменов (просмотры + покупки + переводы) без data leakage.

Подготовка: Классическая ML на собесе, ML-теория.

4. Python + SQL live-coding (60–90 минут)

Live: 1–2 алгоритмических задачи (LeetCode Medium), 2–3 задачи на pandas / SQL по медиа-данным. SQL обычно классический Сбер-стиль: оконные функции, сложные JOIN, recursive CTE на иерархических данных (каталог контента). Готовиться плотно: SQL уровня Сбера обычно выше среднего.

Подготовка: SQL-собес, Live-coding.

5. A/B-секция (60 минут)

Спрашивают: дизайн эксперимента, sample size, MDE, ratio-метрики, peeking, switchback (для контентных подборок), CUPED, multiple testing. Доп. блок: как корректно сравнивать долгосрочные эффекты на коротком тесте, как анализировать cross-product эффекты (если эксперимент в Okko влияет на retention в СберПрайме).

Подготовка: A/B и causal inference.

6. ML system design / продуктовый кейс (60–90 минут)

Кейсы: «спроектируй рекомендательную систему для главной Okko с учётом cross-signal из Сбер-экосистемы», «как ты бы построил churn prediction для подписчиков с учётом, что часть из них в СберПрайме», «придумай ML для пакетного оффера Okko + СберЗвук». Сильные ответы — где обсуждаются метрики, baseline, итерации, A/B-план и риски data leakage между продуктами.

Подготовка: ML system design.

7. Поведенческое + безопасность данных (45–60 минут)

С тимлидом и менеджером. STAR-формат: конфликт, факап, инициатива. Доп. блок: для senior — проверка понимания того, как работать с персональными данными в банковской экосистеме (GDPR-аналоги, ФЗ-152, разрешённые и запрещённые объединения сигналов).

Особенности по командам

Recommendation & Personalization. Главная команда: ранжирование контента, подборки, «продолжить смотреть», «похожее». Основные технологии — двухбашенные retrieval + бустинги для ranking. Челленджи: cold start, balance между независимым каталогом и оригинальным контентом, латентность на главной. Подойдёт DS с recsys-background.

Subscription & Retention. Прогноз churn, реактивация, апсейл на премиум-тарифы, оптимизация trial-сценариев. Тесная связка с продуктом и финансами. В Okko задача усложнена тем, что подписка часто идёт пакетом со СберПрайм, что меняет UA-стратегию и churn-метрики.

Cross-product analytics & ecosystem ML. Уникальная для Okko (и для Сбер-экосистемы вообще) команда: использование сигналов из СберПрайма, банка, других сервисов для прогноза удержания и персонализации. Сильно завязана на безопасность данных и compliance. Подойдёт senior DS с опытом работы с большими экосистемами и пониманием data governance.

Content Intelligence. Тегирование, генерация постеров, ASR, NLP для рецензий, search. Mix CV и NLP. Подойдёт DS с research-background.

Marketing & UA. Атрибуция, прогноз ROI кампаний, оптимизация креативов, прогноз LTV. Часть бюджетов идёт через общие маркетинговые инструменты Сбера, что увеличивает масштаб задач.

Sports & Live Events ML. Уникальная для Okko команда: прогноз аудитории прямых трансляций спортивных событий (РПЛ, КХЛ, международные турниры), оптимизация показа рекламы во время трансляций, прогноз retention для пользователей, подписавшихся ради конкретного матча. Mix time-series, ML и продуктовой аналитики. Подойдёт DS с интересом к спорту и опытом в live-event аналитике.

Content Acquisition Analytics. Поддержка решений по закупке контента: прогноз популярности зарубежных лицензий и оригинал-проектов по метаданным, оценка ROI на единицу контента, оптимизация баланса между лицензионным и оригинал-каталогом. Тесная связка с редакторами и финансами. Подойдёт senior DS с интересом к стратегическим решениям.

Что Okko ценит в DS

Production-опыт. Weak: «обучил CatBoost, AUC 0.81». Strong: «обучил retention-prediction CatBoost на 2 млн подписчиков, time-based валидация, в A/B на 25% за 21 день +1.5pp D30-retention для core-tier и +0.6pp для bundle с СберПрайм, p < 0.05, после раскатки эффект сохранился; бизнес-эффект — около +X тыс. retained подписчиков в квартал». Цифры обязательны.

Понимание data governance. Работа в Сбер-экосистеме требует понимания, какие данные можно использовать, как анонимизировать, что нельзя пересекать. Кандидат, который не задаёт вопросы про data privacy в кейсе, выглядит сыро.

Глубина в эксперименте. A/B-инфраструктура корпоративного уровня — кандидат должен говорить на одном уровне с интервьюером про ratio-метрики, CUPED, sequential testing.

Умение работать в большой структуре. Окко — корпорация. Способность согласовывать решения с другими командами, эскалировать спорные вопросы, работать в формальных процессах — необходимо.

Английский. B2 минимум, для senior — C1. Часть документации и часть процессов могут быть на английском.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

Минимум 6–8 недель. Неделя 1–2: ML-теория (классика, recsys-метрики). Неделя 3: LeetCode + pandas (60+ задач). Неделя 4: SQL глубже — оконки, recursive CTE, complex JOINs. Неделя 5: A/B-теория и расчёты. Неделя 6: ML system design — отработай 4 кейса (recsys, retention, cross-product, content intelligence). Неделя 7: подготовь STAR-истории и подумай про data governance кейсы. Неделя 8: подпишись на Okko, изучи продукт, mock-интервью.

Для тренировки реальных вопросов с DS-собесов — открывай Карьерник: 1500+ задач по SQL, Python, A/B, статистике, продуктовой аналитике и ML по темам и сложности.

Частые ошибки

Первая — игнорирование Сбер-контекста. Okko — это не самостоятельное VOD, а часть экосистемы. Кандидаты, которые приходят с recsys-кейсами из чистого e-commerce и не учитывают cross-product сигналы, теряют сильное конкурентное преимущество.

Вторая — слабый ответ на data governance вопросы. На senior-собесе спросят: «как ты бы использовал сигналы из СберБанка для прогноза churn в Okko, что нужно учесть с точки зрения compliance». Если кандидат отвечает «возьмём всё что есть», это серьёзный минус.

Третья — недооценка сложности корпоративного процесса. Решения в Сбер-экосистеме согласуются с несколькими стейкхолдерами. Кандидат, который привык работать в формате «я подумал и сделал», будет страдать.

Четвёртая — слабая разница между подписочной и транзакционной моделями. У Okko обе работают одновременно, и метрики, и модели для них разные.

Связанные темы

FAQ

Сколько этапов в собесе DS в Okko?

5–7 этапов: HR-скрининг, тестовое задание, ML / DS-теория, Python + SQL live-coding, A/B-секция, ML system design / продуктовый кейс, поведенческое + data governance. Цикл — 4–6 недель.

Чем отличается DS в Okko от DS в Иви?

Okko встроен в Сбер-экосистему, поэтому есть уникальные задачи cross-product ML и более жёсткие требования по data governance. Иви — независимый, процессы менее формальны, но и cross-product возможностей меньше.

Нужен ли опыт работы в Сбере?

Не обязателен. Сильный DS с recsys / retention опытом подходит. Но готовность работать в большой корпоративной структуре — обязательна.

Какой английский нужен?

B2 минимум для middle, C1 для senior. Документация и часть процессов могут быть на английском.

Сколько платят DS в Okko?

Зависит от грейда. Для middle DS — на уровне крупных tech-компаний РФ (Яндекс / Тинькофф / VK), для senior — выше. Recsys-команда обычно платит больше, чем общая аналитика, а senior с data governance экспертизой — на премиум-грейде.