Собеседование на Data Engineer в VK
Содержание:
Почему VK — особенный работодатель для DE
VK — экосистема с десятками продуктов: соцсеть, Облако Mail.ru, ВКонтакте, Видео, Музыка, Игры, Образовательные сервисы. Объёмы данных — сотни петабайт, миллиарды событий в день. Стек смешанный: Hadoop + Hive + Spark + ClickHouse + Airflow + собственные tools (Tarantool как in-memory DB).
DE в VK работает на высоких нагрузках. От junior ждут уверенный SQL и базовый Spark, от middle — оптимизация и data modeling, от senior — system design и cross-team alignment. Актуальные вакансии — на careers.vk.company.
Информация основана на публичных источниках и опыте кандидатов. Команды VK используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30-45 минут)
Знакомство:
- Стек: Hadoop / Spark / ClickHouse — что использовал
- Объём данных, типы pipelines
- Knowledge of distributed systems
Питч 90 секунд: продукт, задача, объём, инструменты, impact.
2. SQL deep dive (60-90 минут)
В VK DE пишет много SQL для аналитики и ETL. Глубокий уровень обязателен.
Что спрашивают:
- Window functions, CTE, рекурсия
- Оптимизация: index, plan, partitions
- Анализ slow queries
- ClickHouse-specific: MergeTree, materialized views, dictionaries
Подготовка: SQL для DE, SQL-тренажёр.
3. Python + Spark (60-90 минут)
Spark — основной distributed compute. PySpark, иногда Scala.
Темы:
- DataFrame / Dataset API
- Partitioning, shuffles, broadcast joins
- Memory tuning
- UDF и их альтернативы
Подготовка: Spark deep dive.
4. System design (60-90 минут)
Сценарии:
- Спроектируй pipeline для real-time feed аналитики
- Как организуешь data lake для 100PB
- ClickHouse vs Hadoop — когда что
Подготовка: data modeling, ClickHouse и OLAP.
5. Поведенческое + командное (45-60 минут)
VK ценит ownership и cross-team communication. Готовь STAR-истории: trade-offs, конфликты, missed deadlines, lessons learned.
Подготовка: поведенческое интервью PM (применимо к DE).
Особенности по командам
ВКонтакте Core: соцсеть, миллиарды событий. Фокус на real-time и low-latency.
VK Видео: хранение и аналитика видео-трафика. ClickHouse heavy.
VK Cloud: managed databases, ETL для клиентов. DE строит сервисы, а не только аналитику.
Mail.ru: legacy + новые pipeline. Hadoop + Spark.
Образовательные сервисы (Skillbox, GeekBrains): меньше объёмы, фокус на product analytics + LMS data.
Что VK ценит в DE
- SQL мастерство. Все pipelines начинаются с SQL.
- Spark / ClickHouse. Не fluent — будут проблемы.
- Ownership. «Не моё» — антипаттерн. Берёшь задачу — до конца.
- Communication. Pipelines между командами требуют alignment.
- Pragmatism. Не over-engineer, не «всё на Kafka».
Как готовиться: план
За 4-6 недель:
- Неделя 1-2 — SQL deep. Window functions, оптимизация, ClickHouse-specific. SQL для DE, SQL-тренажёр.
- Неделя 3 — Spark. PySpark API, shuffles, partitioning, joins. Spark deep dive.
- Неделя 4 — System design. Data lake, ETL, real-time vs batch. data modeling, Airflow.
- Неделя 5 — Mocks + behavioral. 2-3 mock-собеса с фидбеком.
- Неделя 6 — Polish. Питч, STAR-истории, FAQ по vacancy.
Частые ошибки
- Слабый ClickHouse. В VK много CH, без знания MergeTree — слабая позиция.
- Spark без понимания shuffle. Спросят «почему медленно» — без shuffles не объяснишь.
- «Всё сделаем на Kafka». Не рассматривать trade-offs — over-engineering.
- Без cross-team опыта. В VK pipelines пересекают teams, наивный «один в поле» — flag.
- Игнор data quality. Спросят про мониторинг, если не упомянуть — слабо.
Связанные темы
- Собеседование на Data Engineer
- SQL для DE
- Spark deep dive
- ClickHouse и OLAP
- Airflow паттерны
- Cloud-стек для DE
FAQ
Удалёнка в VK для DE?
Гибрид часто. Полная удалёнка — реже, зависит от команды.
Зарплатные вилки 2026?
Middle DE: 250-380k. Senior: 380-550k. С опционом — variable.
Английский нужен?
Не обязателен. Документация может быть на английском.
Сколько времени между этапами?
Обычно 1-2 недели полный процесс. Иногда быстрее при urgency.
Если завалил — можно ли retry?
6-12 мес. Часто invite на другую команду внутри VK.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.