Собеседование на Data Scientist в VK
Содержание:
Почему VK — особенный работодатель
VK — экосистема социальной сети ВКонтакте, ОК, Mail, Юлы, Дзена, VK Музыка, VK Видео, RuStore, VK Cloud, MyTracker, VK WorkSpace. DS внутри много где: фид-рекомендации, поиск, рекламные модели, антифрод, модерация контента, NLP/CV в Mail. Особенность — много текста, видео и графа (социального).
В отличие от классического банка, фокус продуктовый: метрики DAU, retention, watch time, виральность. Параллельно — серьёзные ML-команды с публикациями и открытым кодом (Caila, MAUSI). Актуальные вакансии — на странице найма VK.
Информация основана на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с HR (30 минут)
Знакомство:
- Какой направление DS интересует (фид / поиск / реклама / антифрод)
- Опыт работы с large-scale данными
- Готовность к работе в ритме социальной сети (быстро)
Питч 90 секунд.
2. Алгоритмы / coding (60 минут)
LeetCode Easy-Medium. Python. Иногда задача на pandas или SQL. Не самая жёсткая алгоритмическая планка в индустрии, но проходимая.
Иногда — задача про эффективную обработку больших данных (когда не хватает памяти).
Подготовка: Python live-coding, алгоритмы на собесе DS.
3. ML-теория (60-90 минут)
Базовый набор:
- Логрег, бустинг, деревья
- Метрики classification и ranking
- Cross-validation
- Bias-variance, регуляризация
Особенность VK — много про RecSys:
- Two-tower models (user / item embeddings)
- Sequential recommendation (история просмотров)
- Negative sampling в обучении
- Контентные vs коллаборативные фильтры
- Approximate nearest neighbours (FAISS, ScaNN)
Подготовка: ML-теория, cosine similarity на собесе.
4. ML System Design / Доменный кейс (60-90 минут)
Кейсы по теме команды.
Фид (RecSys):
- «Спроектируй ленту ВКонтакте: какие модели, как ранжировать»
- «Что делаешь, когда пользователь нажимает „не показывать"»
- «Как балансируешь diversity и relevance»
NLP / контент:
- «Классификатор tone-of-voice для комментариев»
- «Детектор спама в личных сообщениях»
- «Embedding текста: как обучаешь, как используешь»
Антифрод / модерация:
- «Как ловить bot-аккаунты без жалоб»
- «Граф-фичи для detection накруток»
Подготовка: ML system design, RecSys system design.
5. A/B-тесты (45-60 минут)
Социальная сеть тестирует постоянно. Вопросы:
- Метрики: DAU, retention, watch time, sessions per user
- Long-term effects (рекомендации меняют поведение через 30 дней)
- Network effects (показал тебе пост → твои friends увидели → метрики коррелируют)
- Multiple testing
- Switchback vs cluster randomization
Подготовка: A/B для DS, CUPED.
6. Поведенческое и фит
STAR. У VK свой акцент:
- Кейс с виральным feature: что измерил, как
- Конфликт с продакт-менеджером по поводу метрики
- Спорное решение в условиях неопределённости
- Самый «масштабный» проект (VK любит масштаб)
Особенности по направлениям
| Направление | Что важно |
|---|---|
| Фид ВКонтакте | Sequential RecSys, watch time prediction, diversity |
| Видео-фид (Клипы) | Short-form RecSys, новизна контента, modeling watch time |
| Поиск | Learning to rank, semantic search, query understanding |
| Реклама | CTR/CR prediction, аукционы, look-alike audiences |
| Антифрод / модерация | Graph models, content moderation, multi-modal classification |
| NLP, spam detection, smart compose | |
| RuStore / Облако | B2B/B2C метрики, install attribution |
Что VK ценит в DS
- RecSys-опыт. Если идёшь в фид — должен говорить на этом языке. Two-tower, embeddings, ANN — обязательная база
- Масштаб. Решения работают на 100M+ пользователей. Brute-force / Python loops — не подходит
- Сильный inference. Real-time recommendations: latency p99 < 100ms. Production-разработка важна
- Понимание контента. Не только табличные данные: текст, видео, граф социальных связей
- Эксперименты. A/B на десятки миллионов юзеров — нормальная неделя
Как готовиться: план
- Алгоритмы Easy-Medium. LeetCode Python.
- ML-теория, упор на RecSys. Two-tower, sequential, negative sampling.
- NLP / CV (если идёшь туда). Embeddings, transformers basics, classification.
- A/B для соц-сетей. Long-term effects, network effects.
- ML System Design. Фид-RecSys, search, антифрод.
- STAR-истории. Масштаб, скорость, эксперимент-с-провалом.
Частые ошибки
- «RecSys — это collaborative filter». Уровень junior. В соц-сети нужны глубокие модели, sequential, multi-objective
- Не учесть real-time. Если recommendation считается час — она устаревает. Real-time или near-real-time inference критичен
- Игра в offline-метрику без production-эффекта. NDCG 0.8 на offline без roll-out — слабо
- Игнор content modality. Видео-фид нельзя строить только на табличках. Видео-embeddings, текстовые embeddings нужны
- Слабый SQL / pandas. Без них даже сильный ML-кандидат не пройдёт первый этап
Связанные темы
- Собеседование на Data Scientist
- RecSys system design на собесе DS
- ML system design
- A/B testing для Data Scientist
- Cosine vs Euclidean на собесе DS
FAQ
Сколько раундов в VK для DS?
Обычно 4-5: HR → coding → ML-теория → доменный кейс → фит. Срок 3-5 недель.
Нужно ли знать deep learning?
Желательно. В фиде / NLP / CV — обязательно. В рекламе / антифроде — табличный ML тоже работает.
Берут ли в VK без опыта в соц-сети?
Да, если сильная ML-база. Доменную специфику можно набрать за 2-3 недели до собеса.
Чем VK отличается от Яндекса?
VK — соц-сеть, фокус на UGC, фид и виральность. Яндекс — экосистема, фокус на ranking, поиск, ассистенты. Алгоритмическая планка в Яндексе выше.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.