Собеседование на Data Scientist в Wink
Содержание:
Почему Wink — особенный работодатель для DS
Wink — конвергентный медиа-сервис от Ростелекома: объединяет VOD, IPTV (линейное ТВ через интернет), отдельные подписочные пакеты на спортивный контент, доступ к контенту партнёров. По размеру аудитории — один из крупнейших в РФ за счёт интеграции с телеком-инфраструктурой Ростелекома и сильной позиции в регионах. Для Data Scientist это уникальный микс задач: VOD-recsys, IPTV-аналитика (что необычно — линейное ТВ-смотрение моделируется по-другому, чем on-demand), retention для подписки, кросс-сигналы между интернет-каналом и спортивными пакетами. Технологически Wink — большая корпорация (часть Ростелекома), процессы формализованы, инфраструктура нативно-корпоративная.
ML-домены: ранжирование контента в VOD-каталоге, рекомендации линейного ТВ (что будет смотреть юзер в прайм-тайм), retention prediction (для VOD-подписки и IPTV-пакетов отдельно), churn / реактивация, propensity-to-pay для апсейла на спорт- или премиум-пакеты, прогноз аудитории прямых трансляций (спорт, новости), NLP (модерация, поиск), регионально-зависимое моделирование (контент-предпочтения сильно различаются по гео РФ). Стек: Python, CatBoost, PyTorch, ClickHouse, Hadoop / Spark для больших объёмов IPTV-логов, Airflow, MLflow, внутренние Ростелеком-сервисы для оркестрации.
Актуальные вакансии — на hh.ru и сайте Wink / Ростелекома.
Информация основана на публичных источниках и опыте кандидатов. Команды Wink используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
Цикл 4–6 недель и включает 5–7 этапов. Процесс корпоративный, ближе к Сбер-стандарту, чем к независимым медиа-сервисам. Несколько технических секций, отдельная продуктовая, отдельная поведенческая.
1. HR-скрининг (30–45 минут)
Рекрутер проверяет: production-опыт DS (1.5+ года), причины смены работы, ожидания, готовность работать в большой корпоративной структуре. Опыт в подписочных продуктах, telecom или медиа — плюс. Опыт работы с большими объёмами лог-данных (десятки миллионов событий в день) — важный плюс. Питч 60–90 секунд.
2. Тестовое задание (3–5 дней)
Чаще всего: датасет с просмотрами (VOD + IPTV-смесь), нужно построить модель recommendation или retention. Особенность: данные смешанные — линейное ТВ и on-demand-просмотры имеют разную природу, что усложняет фичеризацию. Сильные кандидаты обсуждают эту разницу в notebook'е.
3. ML / DS-теория (60–90 минут)
С senior DS из команды. Темы: классика (бустинги, регуляризация, метрики), recommender-теория (CF, ALS, double-tower, contextual bandits), ranking-метрики, uplift, survival анализ. Доп. блок: специфика TV-recsys (sequence models, time-of-day и day-of-week фичи, групповое смотрение в одной семье).
Подготовка: Классическая ML на собесе, Deep learning на собесе.
4. Python + SQL live-coding (90 минут)
Live: 1–2 алгоритмических задачи (LeetCode Medium), 2–3 на pandas / SQL по медиа-данным. SQL обычно сложнее среднего: оконные функции на лог-таблицах, recursive CTE на иерархическом каталоге каналов, complex JOIN на больших объёмах. Готовиться: оконки, EXPLAIN, partition pruning.
Подготовка: SQL-собес, Live-coding.
5. A/B + Big Data секция (60–90 минут)
Спрашивают: дизайн эксперимента, sample size, MDE, ratio-метрики, peeking. Доп. блок: как работать с большими объёмами лог-данных в распределённой среде (Spark + ClickHouse), как корректно делать sampling, как избежать дублей и пропусков в логах IPTV.
Подготовка: A/B и causal inference.
6. ML system design / продуктовый кейс (60–90 минут)
Кейсы: «спроектируй рекомендательную систему для VOD с учётом IPTV-смотрения», «как ты бы построил churn prediction для региональных пакетов», «придумай ML для прогноза аудитории прямой трансляции футбольного матча». Сильные ответы — где обсуждаются метрики, baseline, итерации, A/B-план и риски data leakage между линейным ТВ и VOD.
Подготовка: ML system design.
7. Поведенческое + культурный fit (45 минут)
С тимлидом и менеджером. STAR-формат: конфликт, факап, инициатива. Дополнительно — проверка готовности работать в большой корпоративной структуре Ростелекома.
Особенности по командам
VOD Recommendation. Главная команда по on-demand-контенту: ранжирование на главной, подборки, «продолжить смотреть». Стек — двухбашенные retrieval + ranking на бустингах. Подойдёт DS с recsys-background.
IPTV & Linear TV ML. Уникальная команда: модели для предсказания того, что юзер будет смотреть в прайм-тайм, генерация TV-гидов и подборок для каждого юзера, оптимизация баннеров на главной IPTV-приложения. Sequence-модели (LSTM / Transformer для пользовательской истории), time-of-day и day-of-week фичи, групповое смотрение. Подойдёт DS с интересом к sequential modeling и большим логам.
Subscription & Retention. Прогноз churn для VOD-подписки и IPTV-пакетов отдельно, реактивация спящих, оптимизация trial-сценариев. Тесная связка с продуктом. Подойдёт DS с background в banking-scoring или подписочной аналитике.
Audience Prediction & Sport Analytics. Меньше команда: прогноз аудитории прямых трансляций (особенно спорта), оптимизация рекламных и маркетинговых кампаний под крупные события (Лига Чемпионов, чемпионаты). Mix time-series и event-prediction.
Regional Analytics. Уникальная для Wink команда: моделирование региональных предпочтений (контент-микс сильно различается между Москвой и регионами), оптимизация пакетного оффера по гео. Тесная связка с маркетингом.
Big Data Engineering & Analytics Platform. Меньше про ML, больше про инфраструктуру. Объёмы IPTV-логов огромные, и команда отвечает за качество витрин и стабильность пайплайнов.
Convergent Product Analytics. Уникальная команда: моделирование пользователя в нескольких продуктах одновременно (интернет + IPTV + мобильное приложение), кросс-продуктовая атрибуция, оптимизация пакетных офферов от Ростелекома. Сильно завязана на data governance и compliance. Подойдёт senior DS с опытом работы со сложной экосистемой.
Sports & Live Events. Меньше команда, но яркая: прогноз аудитории прямых спортивных трансляций (РПЛ, международные турниры), оптимизация рекламы во время матча, прогноз retention для пользователей, подписавшихся ради конкретного события. Тесная связка с спортивной редакцией.
Что Wink ценит в DS
Опыт с большими объёмами данных. Wink — это телеком с десятками миллионов событий просмотра в день. Кандидат, привыкший работать с pandas на 100k строк, будет страдать. Опыт со Spark, ClickHouse, sampling и memory-efficient обработкой — must.
Понимание разницы между VOD и линейным ТВ. Это разные продукты с разной природой данных. Кандидат, который путает или обобщает, выглядит сыро. Strong answer на вопрос «как ты бы построил recsys для линейного ТВ» — обсуждение sequence models, time-of-day и группового смотрения.
Цифры в кейсах. Weak: «строил recsys». Strong: «обучил sequence-based recsys для IPTV на 50 млн юзеров, time-based валидация, в A/B на 15% за 21 день +3.2% time-spent в прайм-тайм и +0.6pp D30-retention, p < 0.01; бизнес-эффект — около +X тыс. retained subscribers в квартал». Цифры обязательны.
Готовность к корпоративному процессу. Большая структура — много стейкхолдеров. Способность согласовывать решения, эскалировать спорные вопросы, работать в формальных процессах — критично.
Региональное мышление. Wink сильно представлен в регионах. Кандидат, который мыслит только Москвой / Питером, теряет важное конкурентное преимущество.
Как готовиться: план
Минимум 6–8 недель. Неделя 1–2: ML-теория (классика, recsys, sequence-models). Неделя 3: LeetCode + pandas (60+ задач). Неделя 4: SQL глубже — оконки, recursive CTE, complex JOINs. Неделя 5: A/B-теория и работа с big data (Spark, ClickHouse). Неделя 6: ML system design — отработай 4 кейса (VOD-recsys, linear-TV recsys, retention, audience prediction). Неделя 7: подготовь STAR-истории и подумай про корпоративные кейсы. Неделя 8: подпишись на Wink, изучи продукт, mock-интервью.
Для тренировки реальных вопросов с DS-собесов — открывай Карьерник: 1500+ задач по SQL, Python, A/B, статистике, продуктовой аналитике и ML по темам и сложности.
Частые ошибки
Первая — попытка применить чисто VOD-recsys-паттерны к линейному ТВ. Это не работает: пользователь не выбирает контент по запросу, он часто смотрит «что идёт сейчас», и модели должны это учитывать.
Вторая — игнорирование больших объёмов данных. Кандидат, который в тестовом гонит pandas на полном датасете без sampling, теряет очки. Strong: явно обсуждает sampling, distributed computing, оптимизацию запросов.
Третья — слабая разница между подпиской на VOD и IPTV-пакетами. Это разные продукты с разными метриками churn и LTV.
Четвёртая — недооценка региональной специфики. Если на собесе ты говоришь «централизованный recsys на всю РФ», это сигнал, что не понимаешь рынок.
Связанные темы
- Собеседование на Data Scientist в Иви
- Собеседование на Data Scientist в Okko
- Собеседование на Data Scientist в Premier
- Собеседование на Data Scientist — гайд
FAQ
Сколько этапов в собесе DS в Wink?
5–7 этапов: HR-скрининг, тестовое задание, ML / DS-теория, Python + SQL live-coding, A/B + big data секция, ML system design / продуктовый кейс, поведенческое. Цикл — 4–6 недель.
Чем отличается DS в Wink от DS в Иви?
Wink — конвергентный продукт (VOD + IPTV), плюс часть Ростелекома, плюс большие региональные различия. Иви — чистый VOD, независимый, более компактный по объёмам и проще по процессам.
Нужен ли опыт в телекоме?
Не обязателен. Но опыт работы с большими объёмами лог-данных (e-commerce, ads, marketplace) — большой плюс.
Какой английский нужен?
B1–B2 минимум. Корпоративные коммуникации в основном на русском.
Сколько платят DS в Wink?
Зависит от грейда. Для middle DS — на уровне крупных RU tech-компаний (Яндекс / Тинькофф), для senior — выше. IPTV / sequence-recsys команды обычно платят больше из-за специфики.