Собеседование на Data Scientist в VK

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему VK — особенный работодатель

VK — экосистема социальной сети ВКонтакте, ОК, Mail, Юлы, Дзена, VK Музыка, VK Видео, RuStore, VK Cloud, MyTracker, VK WorkSpace. DS внутри много где: фид-рекомендации, поиск, рекламные модели, антифрод, модерация контента, NLP/CV в Mail. Особенность — много текста, видео и графа (социального).

В отличие от классического банка, фокус продуктовый: метрики DAU, retention, watch time, виральность. Параллельно — серьёзные ML-команды с публикациями и открытым кодом (Caila, MAUSI). Актуальные вакансии — на странице найма VK.

Информация основана на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с HR (30 минут)

Знакомство:

  • Какой направление DS интересует (фид / поиск / реклама / антифрод)
  • Опыт работы с large-scale данными
  • Готовность к работе в ритме социальной сети (быстро)

Питч 90 секунд.

2. Алгоритмы / coding (60 минут)

LeetCode Easy-Medium. Python. Иногда задача на pandas или SQL. Не самая жёсткая алгоритмическая планка в индустрии, но проходимая.

Иногда — задача про эффективную обработку больших данных (когда не хватает памяти).

Подготовка: Python live-coding, алгоритмы на собесе DS.

3. ML-теория (60-90 минут)

Базовый набор:

  • Логрег, бустинг, деревья
  • Метрики classification и ranking
  • Cross-validation
  • Bias-variance, регуляризация

Особенность VK — много про RecSys:

  • Two-tower models (user / item embeddings)
  • Sequential recommendation (история просмотров)
  • Negative sampling в обучении
  • Контентные vs коллаборативные фильтры
  • Approximate nearest neighbours (FAISS, ScaNN)

Подготовка: ML-теория, cosine similarity на собесе.

4. ML System Design / Доменный кейс (60-90 минут)

Кейсы по теме команды.

Фид (RecSys):

  • «Спроектируй ленту ВКонтакте: какие модели, как ранжировать»
  • «Что делаешь, когда пользователь нажимает „не показывать"»
  • «Как балансируешь diversity и relevance»

NLP / контент:

  • «Классификатор tone-of-voice для комментариев»
  • «Детектор спама в личных сообщениях»
  • «Embedding текста: как обучаешь, как используешь»

Антифрод / модерация:

  • «Как ловить bot-аккаунты без жалоб»
  • «Граф-фичи для detection накруток»

Подготовка: ML system design, RecSys system design.

5. A/B-тесты (45-60 минут)

Социальная сеть тестирует постоянно. Вопросы:

  • Метрики: DAU, retention, watch time, sessions per user
  • Long-term effects (рекомендации меняют поведение через 30 дней)
  • Network effects (показал тебе пост → твои friends увидели → метрики коррелируют)
  • Multiple testing
  • Switchback vs cluster randomization

Подготовка: A/B для DS, CUPED.

6. Поведенческое и фит

STAR. У VK свой акцент:

  • Кейс с виральным feature: что измерил, как
  • Конфликт с продакт-менеджером по поводу метрики
  • Спорное решение в условиях неопределённости
  • Самый «масштабный» проект (VK любит масштаб)

Особенности по направлениям

Направление Что важно
Фид ВКонтакте Sequential RecSys, watch time prediction, diversity
Видео-фид (Клипы) Short-form RecSys, новизна контента, modeling watch time
Поиск Learning to rank, semantic search, query understanding
Реклама CTR/CR prediction, аукционы, look-alike audiences
Антифрод / модерация Graph models, content moderation, multi-modal classification
Mail NLP, spam detection, smart compose
RuStore / Облако B2B/B2C метрики, install attribution

Что VK ценит в DS

  • RecSys-опыт. Если идёшь в фид — должен говорить на этом языке. Two-tower, embeddings, ANN — обязательная база
  • Масштаб. Решения работают на 100M+ пользователей. Brute-force / Python loops — не подходит
  • Сильный inference. Real-time recommendations: latency p99 < 100ms. Production-разработка важна
  • Понимание контента. Не только табличные данные: текст, видео, граф социальных связей
  • Эксперименты. A/B на десятки миллионов юзеров — нормальная неделя
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. Алгоритмы Easy-Medium. LeetCode Python.
  2. ML-теория, упор на RecSys. Two-tower, sequential, negative sampling.
  3. NLP / CV (если идёшь туда). Embeddings, transformers basics, classification.
  4. A/B для соц-сетей. Long-term effects, network effects.
  5. ML System Design. Фид-RecSys, search, антифрод.
  6. STAR-истории. Масштаб, скорость, эксперимент-с-провалом.

Частые ошибки

  • «RecSys — это collaborative filter». Уровень junior. В соц-сети нужны глубокие модели, sequential, multi-objective
  • Не учесть real-time. Если recommendation считается час — она устаревает. Real-time или near-real-time inference критичен
  • Игра в offline-метрику без production-эффекта. NDCG 0.8 на offline без roll-out — слабо
  • Игнор content modality. Видео-фид нельзя строить только на табличках. Видео-embeddings, текстовые embeddings нужны
  • Слабый SQL / pandas. Без них даже сильный ML-кандидат не пройдёт первый этап

Связанные темы

FAQ

Сколько раундов в VK для DS?

Обычно 4-5: HR → coding → ML-теория → доменный кейс → фит. Срок 3-5 недель.

Нужно ли знать deep learning?

Желательно. В фиде / NLP / CV — обязательно. В рекламе / антифроде — табличный ML тоже работает.

Берут ли в VK без опыта в соц-сети?

Да, если сильная ML-база. Доменную специфику можно набрать за 2-3 недели до собеса.

Чем VK отличается от Яндекса?

VK — соц-сеть, фокус на UGC, фид и виральность. Яндекс — экосистема, фокус на ranking, поиск, ассистенты. Алгоритмическая планка в Яндексе выше.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.