Собеседование на ML Engineer в InfoWatch

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему InfoWatch — особенный работодатель для MLE

InfoWatch — старейшая российская компания в области информационной безопасности, основана в 2003 году. Специализация — Data Loss Prevention (DLP): защита конфиденциальной информации от утечек через email, мессенджеры, USB, печать, web. Продукты: InfoWatch Traffic Monitor (мониторинг трафика и каналов коммуникации), InfoWatch Person Monitor (контроль поведения сотрудников за компьютером), InfoWatch ARMA (защита промышленных систем). Клиенты — крупные корпорации, банки, госы. Для ML-инженера это работа в специализированной DLP-нише с серьёзным фокусом на NLP и поведенческую аналитику.

ML-системы: NLP-классификация документов (является ли документ конфиденциальным, его категория, чувствительность), OCR (распознавание текста в изображениях и сканах), аномалии поведения пользователей (UEBA — User and Entity Behavior Analytics), anti-data-leak detection (детекция exfiltration через различные каналы), классификация контента email и мессенджеров.

Стек: Python + Catboost для табличных задач + PyTorch для нейросетей (NLP, OCR через transformers, CV) + K8s для deployment + ClickHouse как аналитический движок + MLflow для трекинга экспериментов. Многое — on-premise у клиента (т.к. DLP работает с самыми чувствительными данными), что обязывает к специфическим deployment-подходам.

Актуальные вакансии — на hh.ru и сайте InfoWatch.

Информация основана на публичных источниках и опыте кандидатов. Команды InfoWatch используют разные процессы — уточняйте у рекрутера.

Этапы собеседования

Цикл занимает 3-4 недели и включает 5-6 этапов. InfoWatch — серьёзная security-компания, процесс структурированный. Упор на NLP, on-premise deployment и DLP-домен.

1. HR-скрининг (30-45 минут)

Рекрутер проверяет фон: production-опыт ML, DLP / cybersecurity / NLP background — большой плюс. Готовь питч на 90 секунд: проекты, бизнес-эффект, стек. Если работал в DLP, security, document processing — упомяни сразу.

2. ML-теория (60-90 минут)

Базовая секция. Темы: градиентный бустинг (CatBoost), NLP (BERT, fine-tuning, classification, NER), anomaly detection (Isolation Forest, autoencoders для UEBA), OCR (CRNN, transformer-based OCR). Будь готов рассказать про работу с русским языком, мультилингвальность.

Подготовка: ML-теория.

3. Python live coding (60 минут)

Live-кодинг: 1-2 задачи на алгоритмы (LeetCode Medium), плюс задача на ML-pipeline. Готовиться по LeetCode минимум 3-4 недели.

Подготовка: Python для DS.

4. ML System Design (90 минут)

Кейсовая секция. Кейсы: «DLP classifier для категоризации документов (PII, финансы, intellectual property)», «OCR pipeline для распознавания сканов», «user behavior anomaly для UEBA». Нужно: уточнить бизнес-метрику (precision при высоком recall, FP rate), описать архитектуру с учётом on-premise.

Подготовка: MLOps, Model serving, Feature stores.

5. Production / scale (60 минут)

Секция про инфраструктуру: K8s deployment в on-premise, мониторинг моделей, обновление моделей в air-gapped средах. Кейсы про deployment, инциденты.

Подготовка: Monitoring drift, Deployment strategies.

6. Поведенческое (45 минут)

С тимлидом. STAR-формат: конфликт с продактом, факап с моделью, спор по архитектуре. InfoWatch ценит инженерную аккуратность и понимание security mindset.

Особенности по командам

DLP / Traffic Monitor. Самая характерная для InfoWatch команда: классификация документов и контента, проходящего через корпоративный периметр. NLP-классификаторы, regex-rules, ML для содержательного анализа. Подойдёт MLE с NLP-опытом.

Person Monitor. Контроль поведения сотрудников за компьютером: screen capture, keylogger, использование приложений. ML для детекции аномального поведения (UEBA), классификация активностей. Подойдёт тем, у кого опыт с behavioral analytics.

ARMA. Защита промышленных систем (АСУ ТП): мониторинг сетевого трафика SCADA, детекция аномалий в industrial protocols. Меньшая команда, технически сложная. Подойдёт тем, у кого опыт в industrial security.

OCR / NLP. Распознавание текста в документах: сканы, фотографии, формы. ML-pipeline от OCR через extraction до классификации. Подойдёт MLE с CV и NLP-опытом.

Anomaly detection. Cross-product anomaly detection: для всех продуктов InfoWatch. Команда работает с UEBA, network anomaly, contextual anomaly. Подойдёт тем, у кого опыт с anomaly detection.

Что InfoWatch ценит в MLE

Production ML. Базовое требование. Слабый — «делал на Kaggle»; сильный — «document classifier на 1М документов в день, precision=0.94 при recall=0.85, deploy в on-premise среде клиента».

DLP / NLP context. Понимание DLP-задач: классификация чувствительности контента, борьба с adversarial обходом. Если в DLP не работал — изучи публичные материалы Symantec DLP, McAfee DLP.

On-premise deployment. Большинство клиентов InfoWatch — on-premise. Слабый — «деплоил в AWS»; сильный — «развернул в air-gapped среде клиента, обновлял модели через offline-package mechanism».

K8s. Без K8s сложно. Хотя бы 1 модель сам в K8s подними.

Catboost / PyTorch / Python. Стандарт. Без NLP-опыта сложно — InfoWatch активно использует NLP.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

За 6-8 недель до собеседования:

  1. Неделя 1-2 — Python + ML + NLP. LeetCode Medium 30+ задач, NLP (BERT, fine-tuning), anomaly detection. Параллельно прорешай вопросы по Python, ML и SQL в Карьернике: 1500+ задач с разбивкой по темам, по 10-15 минут в день закрывают пробелы перед собесом. Python для DS, ML-теория.
  2. Неделя 3 — K8s + Docker. Подними хотя бы 1 модель в K8s.
  3. Неделя 4 — MLOps + feature stores. MLOps, Feature stores.
  4. Неделя 5 — System design + DLP ML. Кейсы document classification, OCR, UEBA. Model serving.
  5. Неделя 6 — Monitoring + deployment. On-premise specifics. Monitoring drift.
  6. Неделя 7-8 — Mocks + behavioral. Mock-интервью, 5-7 STAR-историй.

Частые ошибки

Без DLP / NLP domain. Кандидат говорит «делал e-commerce recsys» — на System Design отвалится. Сильный — «работал с document classification, понимаю DLP use cases, adversarial обход».

Без on-premise понимания. «Деплоил в AWS» — для клиентов InfoWatch не работает. Сильный — «развернул в on-premise клиента, понимаю air-gapped constraints».

Без K8s. «Деплоил через docker-compose» — слабо. Сильный — «деплоил через K8s, разворачивал в air-gapped».

Только notebook. Кандидаты с Jupyter-only валятся. Сильный — «свои проекты переписал в виде пакетов с тестами».

Без production опыта. «У нас была модель» — не история. Сильный — «classifier для DLP на 1М документов в день, precision=0.94, deploy в on-premise среде, обновления через offline-package».

Связанные темы

FAQ

Удалёнка в InfoWatch для MLE?

Гибрид распространён. Офисы — в Москве.

Зарплатные вилки 2026?

Middle MLE: 270-410k. Senior: 410-610k.

Английский нужен?

Базовый — желательно (документация). Свободный — не обязателен.

Сколько этапов?

5-6 этапов, 3-4 недели.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.