13 мая 2026 г.·6 мин чтения

Собеседование на Data Scientist в VK

Q: Сколько раундов в VK для DS?

Обычно 4-5: HR → coding → ML-теория → доменный кейс → фит. Срок 3-5 недель.

Q: Нужно ли знать deep learning?

Желательно. В фиде / NLP / CV — обязательно. В рекламе / антифроде — табличный ML тоже работает.

Q: Берут ли в VK без опыта в соц-сети?

Да, если сильная ML-база. Доменную специфику можно набрать за 2-3 недели до собеса.

Q: Чем VK отличается от Яндекса?

VK — соц-сеть, фокус на UGC, фид и виральность. Яндекс — экосистема, фокус на ranking, поиск, ассистенты. Алгоритмическая планка в Яндексе выше.

Q: Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.

Проверь себя · 1/3разбор после ответа

У вас два сценария: (1) критичное решение по безопасности, (2) поиск идей среди 50 метрик для следующего спринта. Какое сочетание контроля ошибок чаще всего разумно?

Содержание:

Почему VK — особенный работодатель
Этапы собеседования
Особенности по направлениям
Что VK ценит в DS
Как готовиться: план
Частые ошибки
Связанные темы
FAQ

Почему VK — особенный работодатель

VK — экосистема социальной сети ВКонтакте, ОК, Mail, Юлы, Дзена, VK Музыка, VK Видео, RuStore, VK Cloud, MyTracker, VK WorkSpace. DS внутри много где: фид-рекомендации, поиск, рекламные модели, антифрод, модерация контента, NLP/CV в Mail. Особенность — много текста, видео и графа (социального).

В отличие от классического банка, фокус продуктовый: метрики DAU, retention, watch time, виральность. Параллельно — серьёзные ML-команды с публикациями и открытым кодом (Caila, MAUSI). Актуальные вакансии — на странице найма VK.

Информация основана на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с HR (30 минут)

Знакомство:

Какой направление DS интересует (фид / поиск / реклама / антифрод)
Опыт работы с large-scale данными
Готовность к работе в ритме социальной сети (быстро)

Питч 90 секунд.

2. Алгоритмы / coding (60 минут)

LeetCode Easy-Medium. Python. Иногда задача на pandas или SQL. Не самая жёсткая алгоритмическая планка в индустрии, но проходимая.

Иногда — задача про эффективную обработку больших данных (когда не хватает памяти).

Подготовка: Python live-coding, алгоритмы на собесе DS.

3. ML-теория (60-90 минут)

Базовый набор:

Логрег, бустинг, деревья
Метрики classification и ranking
Cross-validation
Bias-variance, регуляризация

Особенность VK — много про RecSys:

Two-tower models (user / item embeddings)
Sequential recommendation (история просмотров)
Negative sampling в обучении
Контентные vs коллаборативные фильтры
Approximate nearest neighbours (FAISS, ScaNN)

Подготовка: ML-теория, cosine similarity на собесе.

4. ML System Design / Доменный кейс (60-90 минут)

Кейсы по теме команды.

Фид (RecSys):

«Спроектируй ленту ВКонтакте: какие модели, как ранжировать»
«Что делаешь, когда пользователь нажимает „не показывать"»
«Как балансируешь diversity и relevance»

NLP / контент:

«Классификатор tone-of-voice для комментариев»
«Детектор спама в личных сообщениях»
«Embedding текста: как обучаешь, как используешь»

Антифрод / модерация:

«Как ловить bot-аккаунты без жалоб»
«Граф-фичи для detection накруток»

Подготовка: ML system design, RecSys system design.

5. A/B-тесты (45-60 минут)

Социальная сеть тестирует постоянно. Вопросы:

Метрики: DAU, retention, watch time, sessions per user
Long-term effects (рекомендации меняют поведение через 30 дней)
Network effects (показал тебе пост → твои friends увидели → метрики коррелируют)
Multiple testing
Switchback vs cluster randomization

Подготовка: A/B для DS, CUPED.

6. Поведенческое и фит

STAR. У VK свой акцент:

Кейс с виральным feature: что измерил, как
Конфликт с продакт-менеджером по поводу метрики
Спорное решение в условиях неопределённости
Самый «масштабный» проект (VK любит масштаб)

Особенности по направлениям

Направление	Что важно
Фид ВКонтакте	Sequential RecSys, watch time prediction, diversity
Видео-фид (Клипы)	Short-form RecSys, новизна контента, modeling watch time
Поиск	Learning to rank, semantic search, query understanding
Реклама	CTR/CR prediction, аукционы, look-alike audiences
Антифрод / модерация	Graph models, content moderation, multi-modal classification
Mail	NLP, spam detection, smart compose
RuStore / Облако	B2B/B2C метрики, install attribution

Что VK ценит в DS

RecSys-опыт. Если идёшь в фид — должен говорить на этом языке. Two-tower, embeddings, ANN — обязательная база
Масштаб. Решения работают на 100M+ пользователей. Brute-force / Python loops — не подходит
Сильный inference. Real-time recommendations: latency p99 < 100ms. Production-разработка важна
Понимание контента. Не только табличные данные: текст, видео, граф социальных связей
Эксперименты. A/B на десятки миллионов юзеров — нормальная неделя

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Как готовиться: план

Алгоритмы Easy-Medium. LeetCode Python.
ML-теория, упор на RecSys. Two-tower, sequential, negative sampling.
NLP / CV (если идёшь туда). Embeddings, transformers basics, classification.
A/B для соц-сетей. Long-term effects, network effects.
ML System Design. Фид-RecSys, search, антифрод.
STAR-истории. Масштаб, скорость, эксперимент-с-провалом.

Частые ошибки

«RecSys — это collaborative filter». Уровень junior. В соц-сети нужны глубокие модели, sequential, multi-objective
Не учесть real-time. Если recommendation считается час — она устаревает. Real-time или near-real-time inference критичен
Игра в offline-метрику без production-эффекта. NDCG 0.8 на offline без roll-out — слабо
Игнор content modality. Видео-фид нельзя строить только на табличках. Видео-embeddings, текстовые embeddings нужны
Слабый SQL / pandas. Без них даже сильный ML-кандидат не пройдёт первый этап

Связанные темы

FAQ

Сколько раундов в VK для DS?