Собеседование на Data Engineer в Кинопоиске

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Кинопоиск — особенный работодатель для DE

Кинопоиск — главный медиа-сервис Яндекса. DE работает с event-данными огромного объёма: страницы фильмов, плейер, оценки, рецензии, поисковые запросы. Подключён к общей инфраструктуре Яндекса (внутренние BI-системы, A/B-фреймворк).

Особенность: продукт в экосистеме Плюса — данные текут не только в BI Кинопоиска, но и в общий контекст экосистемы. Стэк: внутренний MapReduce-фреймворк Яндекса + ClickHouse. Подробнее — на странице карьеры Яндекса.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30-45 минут)

Опыт, мотивация. Специфика:

  • Был ли опыт с big data / event-данными
  • Знание SQL deep + Python
  • Готовность к Яндекс-стэку

2. SQL и Python (60 минут)

SQL — senior. Python — pandas, базовый pyspark.

3. Big Data (60-90 минут)

MapReduce-mindset, Spark / внутренние фреймворки.

4. ClickHouse (45-60 минут)

Engines, partitioning, MV.

5. Архитектура (60 минут)

«Pipeline для event Кинопоиска», «A/B-инфраструктура», «интеграция с Плюсом».

6. Поведенческое + финал

STAR + стратегический разговор.

Что Кинопоиск ценит в DE

  • Big data. Spark / MapReduce mindset.
  • ClickHouse. Глубоко.
  • Event-driven. События плейера, поиска.
  • Экосистема. Понимание Плюса.
  • A/B-инфраструктура. Большой trafic.

Типичные задачи и кейсы

  • «Pipeline для плейер-событий Кинопоиска»
  • «ClickHouse партиционирование для event-аналитики»
  • «A/B-инфраструктура: bucketing, метрики, отчёты»
  • «Интеграция с экосистемой Плюса: shared data»
  • «Spark job на TB event-данных: оптимизация»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. Spark / MapReduce. Mindset, optimizer.
  2. ClickHouse. Engines, partitioning.
  3. SQL. Senior, оконки.
  4. A/B. Bucketing, метрики.
  5. DWH. Star schema.

Частые ошибки

  • Слабая SQL. Senior-уровень.
  • ClickHouse поверхностно. Engines, partitioning — обязательно.
  • Игнорировать экосистему. Кинопоиск ↔ Плюс ↔ Музыка.

Связанные темы

FAQ

Сколько этапов?

Обычно 5-6. Срок 4-6 недель.

Нужен ли опыт в медиа?

Желателен. Релевантным считается e-com с event-данными.

Какие инструменты главные?

Spark / внутренний MapReduce + ClickHouse + внутренний BI Яндекса.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.