Собеседование на ML Engineer в InfoWatch
Содержание:
Почему InfoWatch — особенный работодатель для MLE
InfoWatch — старейшая российская компания в области информационной безопасности, основана в 2003 году. Специализация — Data Loss Prevention (DLP): защита конфиденциальной информации от утечек через email, мессенджеры, USB, печать, web. Продукты: InfoWatch Traffic Monitor (мониторинг трафика и каналов коммуникации), InfoWatch Person Monitor (контроль поведения сотрудников за компьютером), InfoWatch ARMA (защита промышленных систем). Клиенты — крупные корпорации, банки, госы. Для ML-инженера это работа в специализированной DLP-нише с серьёзным фокусом на NLP и поведенческую аналитику.
ML-системы: NLP-классификация документов (является ли документ конфиденциальным, его категория, чувствительность), OCR (распознавание текста в изображениях и сканах), аномалии поведения пользователей (UEBA — User and Entity Behavior Analytics), anti-data-leak detection (детекция exfiltration через различные каналы), классификация контента email и мессенджеров.
Стек: Python + Catboost для табличных задач + PyTorch для нейросетей (NLP, OCR через transformers, CV) + K8s для deployment + ClickHouse как аналитический движок + MLflow для трекинга экспериментов. Многое — on-premise у клиента (т.к. DLP работает с самыми чувствительными данными), что обязывает к специфическим deployment-подходам.
Актуальные вакансии — на hh.ru и сайте InfoWatch.
Информация основана на публичных источниках и опыте кандидатов. Команды InfoWatch используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
Цикл занимает 3-4 недели и включает 5-6 этапов. InfoWatch — серьёзная security-компания, процесс структурированный. Упор на NLP, on-premise deployment и DLP-домен.
1. HR-скрининг (30-45 минут)
Рекрутер проверяет фон: production-опыт ML, DLP / cybersecurity / NLP background — большой плюс. Готовь питч на 90 секунд: проекты, бизнес-эффект, стек. Если работал в DLP, security, document processing — упомяни сразу.
2. ML-теория (60-90 минут)
Базовая секция. Темы: градиентный бустинг (CatBoost), NLP (BERT, fine-tuning, classification, NER), anomaly detection (Isolation Forest, autoencoders для UEBA), OCR (CRNN, transformer-based OCR). Будь готов рассказать про работу с русским языком, мультилингвальность.
Подготовка: ML-теория.
3. Python live coding (60 минут)
Live-кодинг: 1-2 задачи на алгоритмы (LeetCode Medium), плюс задача на ML-pipeline. Готовиться по LeetCode минимум 3-4 недели.
Подготовка: Python для DS.
4. ML System Design (90 минут)
Кейсовая секция. Кейсы: «DLP classifier для категоризации документов (PII, финансы, intellectual property)», «OCR pipeline для распознавания сканов», «user behavior anomaly для UEBA». Нужно: уточнить бизнес-метрику (precision при высоком recall, FP rate), описать архитектуру с учётом on-premise.
Подготовка: MLOps, Model serving, Feature stores.
5. Production / scale (60 минут)
Секция про инфраструктуру: K8s deployment в on-premise, мониторинг моделей, обновление моделей в air-gapped средах. Кейсы про deployment, инциденты.
Подготовка: Monitoring drift, Deployment strategies.
6. Поведенческое (45 минут)
С тимлидом. STAR-формат: конфликт с продактом, факап с моделью, спор по архитектуре. InfoWatch ценит инженерную аккуратность и понимание security mindset.
Особенности по командам
DLP / Traffic Monitor. Самая характерная для InfoWatch команда: классификация документов и контента, проходящего через корпоративный периметр. NLP-классификаторы, regex-rules, ML для содержательного анализа. Подойдёт MLE с NLP-опытом.
Person Monitor. Контроль поведения сотрудников за компьютером: screen capture, keylogger, использование приложений. ML для детекции аномального поведения (UEBA), классификация активностей. Подойдёт тем, у кого опыт с behavioral analytics.
ARMA. Защита промышленных систем (АСУ ТП): мониторинг сетевого трафика SCADA, детекция аномалий в industrial protocols. Меньшая команда, технически сложная. Подойдёт тем, у кого опыт в industrial security.
OCR / NLP. Распознавание текста в документах: сканы, фотографии, формы. ML-pipeline от OCR через extraction до классификации. Подойдёт MLE с CV и NLP-опытом.
Anomaly detection. Cross-product anomaly detection: для всех продуктов InfoWatch. Команда работает с UEBA, network anomaly, contextual anomaly. Подойдёт тем, у кого опыт с anomaly detection.
Что InfoWatch ценит в MLE
Production ML. Базовое требование. Слабый — «делал на Kaggle»; сильный — «document classifier на 1М документов в день, precision=0.94 при recall=0.85, deploy в on-premise среде клиента».
DLP / NLP context. Понимание DLP-задач: классификация чувствительности контента, борьба с adversarial обходом. Если в DLP не работал — изучи публичные материалы Symantec DLP, McAfee DLP.
On-premise deployment. Большинство клиентов InfoWatch — on-premise. Слабый — «деплоил в AWS»; сильный — «развернул в air-gapped среде клиента, обновлял модели через offline-package mechanism».
K8s. Без K8s сложно. Хотя бы 1 модель сам в K8s подними.
Catboost / PyTorch / Python. Стандарт. Без NLP-опыта сложно — InfoWatch активно использует NLP.
Как готовиться: план
За 6-8 недель до собеседования:
- Неделя 1-2 — Python + ML + NLP. LeetCode Medium 30+ задач, NLP (BERT, fine-tuning), anomaly detection. Параллельно прорешай вопросы по Python, ML и SQL в Карьернике: 1500+ задач с разбивкой по темам, по 10-15 минут в день закрывают пробелы перед собесом. Python для DS, ML-теория.
- Неделя 3 — K8s + Docker. Подними хотя бы 1 модель в K8s.
- Неделя 4 — MLOps + feature stores. MLOps, Feature stores.
- Неделя 5 — System design + DLP ML. Кейсы document classification, OCR, UEBA. Model serving.
- Неделя 6 — Monitoring + deployment. On-premise specifics. Monitoring drift.
- Неделя 7-8 — Mocks + behavioral. Mock-интервью, 5-7 STAR-историй.
Частые ошибки
Без DLP / NLP domain. Кандидат говорит «делал e-commerce recsys» — на System Design отвалится. Сильный — «работал с document classification, понимаю DLP use cases, adversarial обход».
Без on-premise понимания. «Деплоил в AWS» — для клиентов InfoWatch не работает. Сильный — «развернул в on-premise клиента, понимаю air-gapped constraints».
Без K8s. «Деплоил через docker-compose» — слабо. Сильный — «деплоил через K8s, разворачивал в air-gapped».
Только notebook. Кандидаты с Jupyter-only валятся. Сильный — «свои проекты переписал в виде пакетов с тестами».
Без production опыта. «У нас была модель» — не история. Сильный — «classifier для DLP на 1М документов в день, precision=0.94, deploy в on-premise среде, обновления через offline-package».
Связанные темы
- Собеседование на ML Engineer
- MLOps
- Feature stores
- Model serving
- Monitoring и drift
- Deployment strategies
FAQ
Удалёнка в InfoWatch для MLE?
Гибрид распространён. Офисы — в Москве.
Зарплатные вилки 2026?
Middle MLE: 270-410k. Senior: 410-610k.
Английский нужен?
Базовый — желательно (документация). Свободный — не обязателен.
Сколько этапов?
5-6 этапов, 3-4 недели.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.