Собеседование на Data Scientist в VK Cloud
Содержание:
Почему VK Cloud — особенный работодатель для DS
VK Cloud (ранее Mail.ru Cloud Solutions) — облачное подразделение группы VK: IaaS, PaaS, managed-сервисы баз данных и Kubernetes, ML-платформа Cloud ML Platform, AI-сервисы, объектное хранилище. Один из крупнейших российских провайдеров с заметной долей в SaaS-сегменте и тесной интеграцией с экосистемой VK (Почта, VK Workspace, VK Видео, ВКонтакте). Для DS это интересный микс: с одной стороны — классические облачные задачи (capacity, anomaly, churn), с другой — продуктовый ML вокруг сервисов VK (рекомендации, антифрод, медиа-обработка), которые мигрируют через инфраструктуру VK Cloud.
Главные ML-домены: прогноз нагрузки на дата-центры и GPU-кластеры, anomaly detection в облачной инфраструктуре, predictive maintenance, AI-сервисы (OCR, ASR, image processing, NLP-классификаторы как готовые API), churn и upsell на B2B-сегменте, антифрод на регистрациях и тарификации, иногда — рекомендательные системы для внутренних продуктов VK, которые VK Cloud хостит. Часть моделей идёт в production как SaaS, часть — в офлайн-пайплайнах для дашбордов.
Стек: Python + PyTorch + Catboost + Tarantool (часть VK-инфраструктуры) + ClickHouse и Greenplum для аналитики; Airflow и внутренние VK-инструменты для пайплайнов; Kubernetes; MLflow и Cloud ML Platform. Часть инфраструктуры — на собственных open-source-проектах VK (Tarantool, ProstgreSQL forks). В команде заметно VK-наследие: процессы быстрее, чем в Сбере, но медленнее, чем в Тинькоффе.
Актуальные вакансии — на hh.ru и сайте VK.
Информация основана на публичных источниках и опыте кандидатов. Команды VK Cloud используют разные процессы — формат зависит от направления, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 4-5 недель, 4-6 этапов. Процесс гибридный: VK-наследие (быстрый скрининг, фокус на продукт) + облачная специфика (отдельная инфраструктурная секция). Если идёшь в команду, которая работает с гос- или регулируемыми клиентами — будет дополнительный compliance-этап.
1. HR-скрининг (30 минут)
Рекрутер уточняет: production-опыт ML (от 1-2 лет), мотивацию идти именно в VK Cloud (а не в Яндекс или Cloud.ru), знание облачного контекста, ожидания по компенсации и формату. Если в прошлом был опыт в VK (Почта, ВКонтакте) или у другого облачного провайдера — упомяни в первые 60 секунд. Готовь питч на 90 секунд: что делал, какие модели в проде, какой эффект на метрику.
2. ML-теория (60-90 минут)
Базовая секция с senior DS из команды. Темы: градиентный бустинг (Catboost — почему он, что с категориальными фичами), классические методы (логистическая регрессия, метрики классификации, ROC-AUC vs PR-AUC при дисбалансе), feature engineering, time-series (Prophet, ARIMA, holdout-стратегии). Если идёшь в AI-сервисы — будет блок про CV (CNN, transfer learning, классические backbone-сети) и/или NLP (трансформеры на базовом уровне, токенизация, attention). Спрашивают не глубоко, но широко — VK Cloud ценит универсальных DS.
Подготовка: классическая ML, time series.
3. Python live coding + SQL (60-90 минут)
1-2 задачи на алгоритмы (LeetCode Easy/Medium — деревья, графы, hash, динамика), 1 задача на pandas (фильтры, groupby, оконки) и 1-2 задачи на SQL (агрегаты, JOIN, оконные функции). Алгоритмическая планка ниже, чем в Яндексе. Часто встречается живой кейс: «дам тебе CSV с метриками сервиса, найди топ-5 регионов с аномальным падением». Готовиться — 30 LeetCode Medium плюс 20 задач на pandas и 30 SQL-задач.
Подготовка: live coding, SQL для DS.
4. ML System Design + Product кейс (90 минут)
Гибридная секция: половина — System Design, половина — продуктовый кейс. Тебе дают сценарий: «спроектируй систему рекомендаций для внутреннего сервиса VK, который мигрирует в VK Cloud», «как ты бы построил OCR-сервис, который мы продаём как SaaS», «как сделать предсказание оттока для enterprise-клиентов VK Cloud». Нужно: уточнить бизнес-метрику, описать данные, выбрать архитектуру (retrieval/ranking для recsys, инференс-пайплайн для OCR), обсудить trade-off latency vs quality, мониторинг и A/B-план. Хорошо звучит, если ты вспомнишь про специфику VK: какие данные у группы есть, какие нельзя использовать по compliance.
Подготовка: ML system design, метрики модели.
5. Поведенческое + culture fit (45 минут)
С тимлидом или представителем направления. STAR-формат: расскажи про конфликт с продактом, факап с моделью в проде, спор по архитектуре. Параллельно проверяют соответствие VK-ценностям: ориентация на результат, готовность к фастпрому (быстрому пилоту), готовность работать в гибридном офисе на Ленинградском проспекте. Не выдумывай: если факапов в прод не было — рассказывай про учебный pet-project, но честно.
6. Финал с руководителем направления (30-45 минут, опционально)
Не везде. Финальная встреча с руководителем направления: обсуждают грейд, оффер, иногда финальные сомнения по культурному фиту. Не отсев, но возможны корректировки по цифрам.
Особенности по командам
Capacity и infrastructure DS. Самая большая команда: прогноз нагрузки на ЦОДы и GPU-кластеры, планирование закупок железа, оптимизация миграций ВМ. Стек — Python + Prophet + Catboost + ClickHouse. Главный челлендж — учёт миграций больших клиентов: один enterprise-аккаунт даёт +20% нагрузки на регион, нужны фичи про события миграций. Подойдёт кандидатам с background в telco или supply-chain.
AI Services. Команда делает AI-API: OCR, ASR, image classification, NLP-классификаторы. Тесно работает с командами AI-исследований VK (VK Vision, VKLLM). Стек — PyTorch + Triton + TensorRT + кастомные inference-серверы. Челленджи — latency, batching, стабильность под пиками, оптимизация под GPU-парк. Подойдёт DS с CV/NLP-фоном и желанием возиться с инференсом.
Anomaly detection и SRE-аналитика. Маленькая команда, плотно работает с SRE: ловит аномалии в метриках инфраструктуры, предсказывает сбои дисков и сетевого оборудования. Стек — Python + Isolation Forest + autoencoders + Prometheus как источник данных. Главный челлендж — false-positive rate: ложный алерт раз в час убивает доверие. Подойдёт инженерам, которые любят разбираться в метриках.
Customer analytics и B2B-churn. Команда занимается прогнозом ухода крупных клиентов, кросс-сейлом managed-сервисов, оценкой LTV. Стек — Catboost + Greenplum + дашборды. Челлендж — маленькая выборка (enterprise-клиентов сотни), интерпретируемые фичи. Подойдёт DS с опытом B2B-аналитики или банковского скоринга.
Recsys-команда (через переезд из основного VK). Точечно: для сервисов, которые мигрировали в VK Cloud — может быть отдельная команда рекомендаций. Стек — PyTorch + Catboost + двухбашенные нейросети + кастомные feature stores. Подойдёт кандидатам с опытом recsys в e-commerce или медиа.
Что VK Cloud ценит в DS
Production-опыт. История про модель в проде с количественным эффектом. «Сделал классификатор на Kaggle» — не история. «Запустил классификатор для модерации фото на 1М запросах в день, +1.4% precision, минус 30% ручной модерации» — это история.
Скорость пилота. В VK быстро пилотируют идеи. Кандидат, который месяц настраивает идеальный pipeline, — менее интересен, чем кандидат, который за неделю выкатывает «грязный» пилот и потом полирует. На System Design это слышно: сильный кандидат сразу говорит «начну с baseline за неделю, потом улучшу».
Универсальность. Узкие специалисты только по NLP или только по CV — рассматриваются точечно в AI Services. Для большинства команд нужен DS, который может в табличку, time-series и базовый DL.
Weak vs strong на System Design. Слабый ответ: «возьмём transformer для anomaly detection в облаке». Сильный ответ: «начну с Isolation Forest на 10 ключевых метриках — это укладывается в наш SRE-pipeline и интерпретируемо. Если IF не закрывает кейсы со сложными корреляциями, попробую autoencoder на эмбеддингах, но и тут заложу мониторинг доли FP и kill-switch на старую модель».
Готовность к VK-процессам. VK быстрее Сбера, но медленнее стартапа. Согласования есть, релиз-окна есть, security-проверки есть. Кандидаты, которые на собесе ругают процессы, получают -1.
Self-management. Команды небольшие, продактов и аналитиков немного. DS сам формулирует, согласует, собирает данные, тестирует и катит в прод.
Как готовиться: план
За 6-8 недель до планируемого собеса:
- Неделя 1-2 — Табличный ML и time-series. Catboost (категориальные фичи, регуляризация), валидация для рядов (rolling-origin), Prophet и ARIMA. Прорешай 1-2 Kaggle-кейса. Параллельно — пройдись по базе ML на Карьернике: 1500+ задач по SQL, Python, статистике и ML, 15 минут в день — за месяц закроешь пробелы по ROC-AUC, регуляризации, метрикам.
- Неделя 3 — DL-база и AI-сервисы (если идёшь туда). Базовый PyTorch, transfer learning, fine-tuning, основные backbone-сети (ResNet, ViT), базовые трансформеры. Прочитай блог VK Vision — формирует словарь.
- Неделя 4 — Python + SQL live coding. 30-50 LeetCode Easy/Medium, 20 задач на pandas, 30 SQL-задач на оконки и JOIN.
- Неделя 5 — System Design + Product кейсы. Прорешай 5-6 кейсов: capacity-прогноз, AI-сервис на инференс, churn enterprise, anomaly, recsys для внутреннего сервиса VK. Структура — бизнес → метрики → данные → модель → MLOps → A/B → мониторинг. ML system design.
- Неделя 6 — MLOps и инфраструктура. Базовое: docker, K8s, model serving (Triton, BentoML). Не надо быть DevOps, надо говорить на их языке. MLOps, Model serving.
- Неделя 7-8 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с продактом, факап, быстрый пилот, кейс про экономию инфраструктуры.
Частые ошибки
Хайпуют нейронками везде. Кандидат предлагает transformer для capacity-прогноза. Если на вопрос «почему не Catboost на лагах?» — ответа нет, балл просядет.
Не разбираются в инфраструктуре. «Я DS, я в Kubernetes не лезу» — нерабочая позиция в облачном провайдере. Базовое понимание K8s до собеса обязательно.
Не думают про latency и costs. На System Design сразу заходят в большие модели, не оценив, во сколько это обойдётся в инференсе. В VK Cloud это сразу видно.
Не задают вопросы про данные. На кейсе сразу — модель, а не «какие данные есть, какая частота, какие пропуски, как мы их собираем». Это первый фильтр.
Не умеют объяснить, почему именно VK Cloud. На скрининге часто спрашивают «почему мы, а не Яндекс/Cloud.ru». Если кандидат говорит «вы первые ответили» — балл проседает. Нужен ответ про продукт.
Связанные темы
- Собеседование на Data Scientist
- ML system design
- Классическая ML на собесе
- Собеседование на ML Engineer в VK Cloud
- Собеседование на Data Scientist в VK
FAQ
Удалёнка в VK Cloud для DS?
Гибрид с офисом на Ленинградском проспекте в Москве. Полная удалёнка возможна точечно для senior+ при согласовании с тимлидом. Уточняйте на скрининге.
Зарплатные вилки 2026?
Middle DS: 270-410k. Senior: 410-630k. Lead/Staff — выше. Бонусная схема скромнее, чем в Яндексе или Тинькоффе, но соцпакет VK солидный.
Нужен ли английский?
Базовый — для документации и статей. Свободного говорящего не требуется. Для AI Services с международными библиотеками — желательнее.
Сколько этапов?
4-6 этапов, 4-5 недель от первого скрининга до оффера. Процесс быстрее Сбера и Cloud.ru, медленнее Тинькоффа.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам.