Собеседование на Data Engineer в VK Cloud

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему VK Cloud — особенный работодатель для DE

VK Cloud (ранее Mail.ru Cloud Solutions) — облачное подразделение группы VK: IaaS, PaaS, managed-сервисы баз данных и Kubernetes, ML-платформа Cloud ML Platform, AI-сервисы, объектное хранилище. Один из крупнейших российских провайдеров с заметной интеграцией в экосистему VK (Почта, ВКонтакте, VK Видео, VK Workspace). Для Data Engineer это интересный микс: классические облачные DE-задачи плюс наследие open-source-стека VK (Tarantool, кастомные форки PostgreSQL).

Главные DE-домены: построение биллинг-DWH (расход ресурсов клиентов с точностью до минуты); pipeline телеметрии серверов и GPU-кластеров; data lake для AI-сервисов и ML-платформы; data infrastructure для AI Services (OCR, ASR, image processing); B2B-аналитика для клиентов (dashboards в личном кабинете); внутренняя SaaS-аналитика; интеграция с экосистемой VK для миграционных проектов клиентов; иногда — поддержка recsys-инфраструктуры внутренних продуктов VK, мигрировавших в VK Cloud.

Стек: ClickHouse + Greenplum + Tarantool (часть экосистемы VK) + кастомные форки PostgreSQL; Kafka + Debezium для CDC; Airflow + dbt + Spark; data lake на S3-совместимых хранилищах; внутренние VK-инструменты для observability. Кодовая база включает open-source проекты VK (Tarantool, фронтэнды на собственных движках), активная модернизация в современный ML-стек.

Актуальные вакансии — на hh.ru и сайте VK.

Информация основана на публичных источниках и опыте кандидатов. Команды VK Cloud используют разные процессы — формат и этапы зависят от направления и грейда, уточняйте у рекрутера.

Этапы собеседования

Полный цикл — 4-5 недель, 4-5 этапов. Процесс гибридный: VK-наследие (быстрый скрининг, фокус на продукт) + облачная специфика (отдельная инфраструктурная секция): HR, техническое интервью, кодинг и SQL, продуктово-архитектурный кейс, финал. Для regulated-клиентов — дополнительный compliance-этап.

1. HR-скрининг (30 минут)

Рекрутер уточняет: production-опыт DE (от 1.5-2 лет, желательно с большими объёмами или ML-инфраструктурой), знание классического DWH и современного data stack, мотивацию идти в VK Cloud, ожидания по компенсации и формату (Москва, Ленинградский проспект, гибрид). Готовь питч на 90 секунд про самый зрелый production-pipeline.

2. Техническое интервью / SQL и архитектура (60-90 минут)

Базовая секция с senior DE из команды. Темы: SQL deep dive (оконные функции, рекурсивные CTE, оптимизация, partitioning, индексы, EXPLAIN, ClickHouse-специфика), модели данных (звезда, снежинка, SCD типы, Data Vault), batch vs streaming, CDC (Debezium), data quality, data lineage. Часто упоминается Tarantool как in-memory store для real-time-витрин. Специфический вопрос: «как ты бы построил pipeline биллинга AI-сервисов VK Cloud с разной моделью ценообразования (IaaS — за час, AI — за токены)».

Подготовка: SQL для DE, ClickHouse и OLAP, Kafka streaming.

3. Python + SQL live coding (60-90 минут)

Задачи прагматичные: 1-2 на SQL (оконки, JOIN, оптимизация — часто на event-данных), 1-2 на Python (pandas, простые ETL). Часто живой кейс: «дам тебе таблицу с событиями использования сервисов клиентами VK Cloud, посчитай агрегаты для биллинга». Готовиться: 30-50 SQL Medium-Hard задач + 20 простых на Python.

Подготовка: SQL для DE.

4. Продуктово-архитектурный кейс (60-90 минут)

Гибридная секция. Кейс: «спроектируй pipeline биллинга для AI-сервисов с разной моделью pricing», «как ты бы построил data lake для AI-сервисов VK Cloud», «как сделать B2B-аналитику в личном кабинете клиента с интеграцией данных из нескольких сервисов». Нужно: уточнить требования, описать архитектуру, выбрать стек, продумать data quality и monitoring, обсудить trade-off, заложить план рекавери. Сильный сигнал — учёт naследия экосистемы VK (Tarantool как часть стека).

Подготовка: Airflow patterns, Monitoring и data quality.

5. Финал с тимлидом / руководителем направления (45 минут)

Беседа с тимлидом или руководителем. Проверяют поведенческие истории (STAR), отношение к работе с инфраструктурой и продуктами VK, готовность к гибридному офису, обсуждают грейд.

Особенности по командам

Биллинг и финансовое DWH. Команда отвечает за корректность биллинга IaaS, PaaS и AI-сервисов. Стек — Greenplum + Airflow + dbt + Tarantool для real-time агрегатов клиента. Челлендж — разные модели ценообразования, точность, regulatory-требования. Подойдёт DE с financial-DWH или telco-биллинг опытом.

Capacity и infrastructure DE. Команда занимается планированием капасити, прогнозом нагрузки, оптимизацией миграций. Стек — ClickHouse + Spark + Airflow + dbt. Челлендж — учёт миграций больших клиентов из экосистемы VK. Подойдёт DE с интересом к infra-аналитике.

AI Services data DE. Команда строит pipeline для AI-сервисов: OCR, ASR, image processing, NLP-классификаторы. Сбор обучающих данных, мониторинг качества, A/B-инфраструктура. Стек — Spark + Kafka + ClickHouse + специализированные хранилища для медиа. Подойдёт DE с интересом к ML.

B2B-product витрины. Команда строит data products для клиентов: dashboards в личном кабинете, API для выгрузки расходов. Стек — ClickHouse + Tarantool + API gateway. Челлендж — multi-tenant продукт со строгими гарантиями приватности данных клиентов. Подойдёт DE с B2B SaaS-фоном.

Internal SaaS analytics. Команда внутренних DE: churn, expansion, NPS, поддержка load prediction. Стек — Greenplum + ClickHouse + кастомные дашборды. Подойдёт кандидатам с B2B-SaaS background.

Что VK Cloud ценит в DE

Production-опыт. Не Kaggle-experience, а pipeline в проде с SLA. «Запустил биллинг-pipeline AI-сервисов с миллиардами событий в день, P99 latency < 60 секунд, 99.95% доступность» — это история.

Cloud и data-инфраструктура. Опыт в облаке, fintech или ML-инфраструктуре — большой плюс. Опыт работы с Tarantool или другими in-memory store — bonus.

VK-стек. Знакомство с open-source стеком VK (Tarantool, кастомные движки) даёт преимущество. Не критично, но облегчает onboarding.

Weak vs strong на архитектурном кейсе. Слабый ответ: «возьмём Kafka и Spark для биллинга, real-time, modern stack». Сильный ответ: «биллинг — это batch с reconciliation. События инференса собираем через Kafka в data lake → агрегация в ClickHouse материализованными представлениями для свежих дашбордов в личном кабинете (через Tarantool как фронт-кеш) → batch-pipeline в Airflow формирует счёт через dbt с обязательным reconciliation против сырых событий. Tarantool используем для real-time агрегатов клиенту, ClickHouse — для исторической аналитики, Greenplum — для финансовых витрин и регуляторики».

Скорость пилота. В VK быстро пилотируют идеи. Кандидат, который месяц настраивает идеальный pipeline без MVP, менее интересен.

Готовность к VK-процессам. VK быстрее Сбера, но медленнее стартапа. Согласования, релиз-окна, security-checks. Кандидаты, которые ругают процессы на собесе, получают -1.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

За 4-6 недель до планируемого собеса:

  1. Неделя 1-2 — SQL deep dive и data modeling. Оконные функции, рекурсивные CTE, оптимизация, partitioning, индексы, EXPLAIN, ClickHouse-специфика. Модели данных (звезда, снежинка, SCD типы, Data Vault). Прорешай 30 SQL Medium-Hard задач. Параллельно — на Карьернике обнови базу по SQL и Python: 1500+ задач, по 15-20 минут в день, чтобы за месяц закрыть пробелы и не путаться в простых вопросах.
  2. Неделя 3 — Современный data stack. Airflow patterns, dbt, Spark (оптимизация), Kafka + Debezium, Tarantool basics (in-memory store, lua), базовые концепции feature stores.
  3. Неделя 4 — Cloud и VK-контекст. Прочитай блоги VK Cloud, Selectel, Yandex Cloud. Запомни понятия: billing aggregation, GPU-инстанс, токены LLM, feature store, multi-tenant, observability.
  4. Неделя 5 — Архитектурные кейсы. Прорешай 5-6 кейсов: биллинг AI-сервисов, data lake для AI Services, B2B-dashboards, capacity GPU-кластеров. Структура — требования → источники → транспорт → процессинг → витрина → SLA → recovery. Airflow patterns.
  5. Неделя 6 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с продактом, факап в проде, история про быстрый пилот, кейс с multi-tenant архитектурой.

Частые ошибки

Не знают Tarantool. В VK Cloud Tarantool — часть стека. Если кандидат не понимает, для каких задач он используется (in-memory KV, app server) — балл проседает.

Хайпуют стримингом везде. Кандидат проектирует биллинг как pure streaming. Не упоминает, что для финансовой отчётности важна reconciliation, а не скорость.

Не разбираются в multi-tenant. Кандидат на System Design рисует pipeline «для одной компании». VK Cloud — SaaS на десятки тысяч клиентов. Балл проседает.

Не думают про точность биллинга. Кандидат строит pipeline без reconciliation с сырыми событиями. В облаке расхождение — претензия клиента.

Не задают вопросы про SLA и объёмы. На кейсе сразу — стек, а не «сколько событий, какие SLA, какой retention, какие compliance». Это первый фильтр.

Связанные темы

FAQ

Удалёнка в VK Cloud для DE?

Гибрид с офисом на Ленинградском проспекте в Москве. Полная удалёнка возможна точечно для senior+ при согласовании.

Зарплатные вилки 2026?

Middle DE: 270-410k. Senior: 410-630k. Lead/Staff — выше. Бонусная схема скромнее, чем в Яндексе или Тинькоффе, но соцпакет VK солидный.

Нужен ли английский?

Базовый — для документации. Свободного говорящего не требуется. Для AI Services с международными библиотеками — желательнее.

Сколько этапов?

4-5 этапов, 4-5 недель от первого скрининга до оффера. Процесс быстрее Сбера и Cloud.ru.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам.