Собеседование на Data Scientist в Касперском
Содержание:
Почему Касперский — особенный работодатель для DS
Лаборатория Касперского — международная security-компания с собственным R&D в Москве. DS работает в специфическом домене: классификация malware, поведенческий анализ, обнаружение аномалий в сетевом трафике, классификация фишинговых писем, NLP для анализа угроз.
Особенность: модель должна работать на низком false positive rate (нельзя блокировать легальный софт). Для этого используются strict precision-fokused обучение, calibration, ensemble методы и domain expertise. Обычные DS-метрики (AUC) дополняются проектными (precision@k, false positive за период). Подробнее — на странице карьеры Касперского.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Специфика:
- Был ли опыт с security или anomaly detection
- Знание классического ML
- Готовность работать с unbalanced (часто <0,01% positive) данными
2. Python и алгоритмы (60-90 минут)
Live-coding. Алгоритмика средне-сложного уровня (LeetCode medium), Python deep (numpy, многомерные структуры данных).
3. ML-теория (60-90 минут)
Темы:
- Classical ML: SVM, random forest, gradient boosting
- Аномалии: isolation forest, autoencoders, one-class SVM
- NLP: классификация фишинга, эмбеддинги, transformer-модели
- Метрики: precision@k, false positive rate, ROC, PR curve
- Adversarial: модели должны быть устойчивы к попыткам обмана
4. Системный дизайн (60 минут)
«Спроектируй pipeline для классификации malware в реальном времени», «детекция аномалий в сетевом трафике», «классификация фишинга».
5. Поведенческое (45 минут)
STAR-вопросы.
6. Финал
Технический + культурный фит.
Что Касперский ценит в DS
- Strong CS basics. Алгоритмы, структуры данных, complexity.
- Anomaly detection mindset. Работа с rare events (<0,01%).
- Adversarial thinking. Модель — против активного противника.
- Robust ML. Низкий false positive, высокая precision, calibration.
- Domain learning. Security — специфичный домен, готовность глубоко в нём разобраться.
Типичные задачи и кейсы
- «Спроектируй классификатор malware. Признаки, модель, метрика»
- «Детекция аномалий в сетевом трафике. Какие алгоритмы?»
- «Классификация фишинговых писем. Какие фичи, как обучать?»
- «Adversarial attack: как защитить модель от обхода»
- «Concept drift в security: атаки эволюционируют. Как поддерживать модель?»
Как готовиться: план
- Classical ML + Deep. SVM, RF, GBM, autoencoders, transformer.
- Anomaly detection. Isolation forest, one-class SVM, autoencoders.
- NLP. TF-IDF, эмбеддинги, transformer-классификация.
- Adversarial. FGSM, adversarial training (концептуально).
- Алгоритмы. LeetCode medium для скорости.
Частые ошибки
- Игнорировать precision. В security recall не главное — главное минимизировать false positive.
- Балансировать классы наивно. SMOTE может сделать модель «хорошей» по AUC, но провальной в проде.
- Не понимать domain. Без знания, как malware распространяется — фичи будут случайными.
- Слабые алгоритмы. В Касперском CS-основы спрашивают серьёзно.
Связанные темы
- Собеседование на Data Scientist
- Anomaly detection на собесе DS
- Adversarial attacks на собесе DS
- Accuracy vs F1
- Собеседование на DS в Sber AI
FAQ
Сколько этапов в собеседовании на DS в Касперском?
Обычно 5-6: рекрутер → coding → ML-теория → system design → поведенческое → финал. Срок 4-6 недель.
Нужен ли security-опыт?
Желателен, но не обязателен. Релевантным считается опыт с anomaly detection, fraud, антифрод.
Какие алгоритмы спрашивают?
LeetCode medium для общей CS, классический ML и anomaly detection — для домена. NLP для команд, занимающихся текстовыми угрозами.
Сложный ли собес?
Один из самых технически насыщенных в РФ для DS. CS-основы спрашивают глубоко.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.