Собеседование на Data Scientist в Naumen

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Naumen — особенный работодатель для DS

Naumen — крупная российская enterprise-SaaS компания: продукты для контакт-центров (Naumen Contact Center, Naumen Erudite), ITSM/BPM-платформы (Naumen Service Desk), CRM, knowledge management, omnichannel, документооборот. Клиенты — преимущественно средний и крупный бизнес, государственные структуры и регулируемые отрасли. Для Data Scientist это специфический работодатель: enterprise B2B-контекст (длинные циклы продаж, сложные интеграции, регуляторика), но при этом ML-задачи современные — много NLP и conversational AI (естественно — ключевой продукт Naumen Erudite это AI-помощник для контакт-центров).

Главные ML-домены: speech-to-text для русского языка (ASR для контакт-центров с шумом и диалектами); NLP-классификация интентов из обращений; диалоговые модели для chatbot/voicebot; sentiment-анализ операторских разговоров; summarization звонков; recsys ответов оператору в реальном времени; классификация и роутинг тикетов в ITSM; антифрод в обращениях; внутренняя аналитика SaaS-метрик (churn клиентов Naumen, expansion). Часть моделей — глобальные сервисы как фичи продукта Naumen Erudite, часть — кастомные модели под крупных клиентов с уникальной разметкой.

Стек: Python + PyTorch + Catboost + LightGBM + специализированные ASR-инструменты (NVIDIA NeMo, Kaldi, собственные доработки); PostgreSQL + ClickHouse для аналитики; Spark для тяжёлых пайплайнов; собственная feature-инфраструктура; MLflow и внутренние инструменты для трекинга; Kubernetes для serving. ML-команда довольно зрелая по российским меркам, особенно в conversational AI.

Актуальные вакансии — на hh.ru и сайте Naumen.

Информация основана на публичных источниках и опыте кандидатов. Команды Naumen используют разные процессы — формат и этапы зависят от направления и грейда, уточняйте у рекрутера.

Этапы собеседования

Полный цикл — 4-6 недель, 5-6 этапов. Процесс корпоративный, но в R&D-направлениях быстрее: HR, ML-теория, кодинг и SQL, продуктовый кейс с заказчиком, финал. Алгоритмическая планка средняя, без LeetCode Hard. Для ролей с regulated-клиентами есть дополнительный compliance-этап.

1. HR-скрининг (30-45 минут)

Рекрутер уточняет: production-опыт ML (от 1.5-2 лет, желательно с NLP или ASR), знание enterprise SaaS-контекста, мотивацию идти именно в Naumen, ожидания по компенсации и формату работы (Москва, Екатеринбург — это два больших офиса Naumen, есть гибрид и удалёнка). Готовь питч на 90 секунд про самый зрелый production-кейс с цифрами.

2. ML-теория и conversational AI (60-90 минут)

Базовая секция со старшим DS из направления. Темы: для NLP/ASR-команд основной фокус — transformer-архитектура (BERT, RuBERT, GPT, encoder-decoder), классификация интентов, NER, sentiment, multi-turn dialog systems, RAG-архитектуры, ASR (CTC, RNN-T, Whisper, особенности русского языка), fine-tuning vs PEFT; для табличных команд — Catboost/LightGBM, классические методы, метрики, дисбаланс. Если идёшь в Naumen Erudite — будет глубокая часть про LLM и conversational AI, eval-стратегии (BLEU, ROUGE, human eval, LLM-as-judge).

Подготовка: классическая ML, NLP задачи, метрики модели.

3. Python + SQL live coding (60 минут)

Задачи прагматичные: 1-2 на Python (pandas, базовые алгоритмы, обработка текста), 1-2 на SQL (агрегаты, JOIN, оконные функции). Часто живой кейс: «дам тебе фрейм с обращениями в контакт-центр, найди топ-5 категорий обращений, у которых вырос объём за последний месяц». Без LeetCode Hard. Готовиться: 20-30 SQL Medium-задач + 30 простых на pandas.

Подготовка: live coding.

4. Продуктовый кейс с заказчиком (90 минут)

Самая характерная секция. Кейс продуктовый: «спроектируй роутер обращений в контакт-центре банка-клиента», «как ты бы построил summarization звонков для крупного телекома», «как сделать AI-помощника оператору, который рекомендует ответ в реальном времени». Нужно: уточнить бизнес-метрику, описать данные (что есть у клиента, что нужно собрать), выбрать модель, продумать пайплайн (offline vs online inference, latency), учесть compliance (PII, регуляторика), обсудить eval (human-in-the-loop, A/B). Сильный сигнал — учёт того, что Naumen работает с enterprise-клиентами, где compliance и SLA — не пустые слова.

Подготовка: ML system design.

5. Поведенческое + culture fit (45 минут)

С тимлидом или руководителем направления. STAR-формат: расскажи про конфликт с клиентом, факап в проде, длинный enterprise-проект. Naumen ценит зрелость и готовность работать с requirements от крупных клиентов.

6. Финал с руководителем (30 минут)

Финальная встреча: грейд, оффер. Корректировки по цифрам.

Особенности по командам

Naumen Erudite (conversational AI). Флагманская AI-команда Naumen: chatbot, voicebot, AI-помощник оператору, generative summary звонков. Стек — PyTorch + transformer-модели (RuBERT, RuGPT, Llama-flavor) + LLM-интеграции + ASR (Whisper, NeMo) + Triton для serving. Челлендж — production-grade conversational AI на enterprise-данных с требованиями к latency и compliance. Подойдёт DS с серьёзным NLP-фоном и интересом к продуктовым LLM-кейсам.

Contact Center DS. Команда занимается аналитикой контакт-центров клиентов: классификация обращений, прогноз нагрузки, sentiment, оценка качества операторских разговоров. Стек — Python + Catboost + transformer-модели для классификации + Spark + ClickHouse. Челлендж — каждый клиент — это своя разметка и метрика. Подойдёт DS с NLP-фоном или background в contact center analytics.

ITSM/BPM-аналитика. Команда строит классификацию и роутинг тикетов в Naumen Service Desk, прогноз времени решения, recsys решений из базы знаний. Стек — Python + Catboost + классические NLP + retrieval-модели. Подойдёт DS с background в IT-аналитике или информационных системах.

ASR / Speech AI. Команда занимается speech-to-text для русского языка: оптимизация под шум, диалекты, доменную лексику клиентов; speaker diarization. Стек — NeMo, Whisper, Kaldi, кастомные доработки + PyTorch. Челлендж — русский язык в проде на enterprise-данных контакт-центров. Подойдёт DS со специализацией в Speech AI.

Internal SaaS analytics. Команда внутренних DS: churn клиентов Naumen, expansion, NPS, поддержка load prediction. Стек — Catboost + классические методы + дашборды + ClickHouse. Подойдёт кандидатам с B2B-SaaS background.

Что Naumen ценит в DS

Production-опыт. Не Kaggle-experience, а модель в проде с количественным эффектом. История «запустил классификатор обращений в контакт-центр клиента-банка, +18% точность роутинга, минус 25% времени на обработку обращения» — сильный сигнал.

NLP / Speech AI глубина. В Naumen Erudite ценится глубина в одном направлении — NLP или ASR. Узкий специалист с серьёзным DL-опытом проходит часто легче, чем «всеядный» DS без фокуса.

Enterprise-мышление. Naumen работает с крупными клиентами (банки, госструктуры, телеком). Compliance, SLA, длинные циклы продаж и внедрения — норма. Кандидат, который этого не понимает, не пройдёт.

Weak vs strong на System Design. Слабый ответ: «возьмём fine-tune Llama 3 для AI-помощника оператору в реальном времени». Сильный ответ: «начну с retrieval (RAG) на базе знаний клиента + классификатор интента на RuBERT — это даёт production-ready решение с предсказуемой latency и интерпретируемостью. LLM как генератор — следующий шаг, если выходим на потолок и при этом я заложу human-in-the-loop eval, latency budget < 800ms, compliance checks на каждый ответ (no-PII, fallback на стандартные ответы при low confidence). На каждом шаге метрика — не accuracy, а доля принятых оператором ответов и среднее время диалога».

Готовность к корпоративной среде. Naumen — корпоративный B2B с регламентами, compliance-проверками, длинными циклами внедрения. Кандидат, который ругает «бюрократию» вообще, рискует получить -1.

Self-management. Циклы проектов длинные (3-6 месяцев на внедрение модели у клиента). DS, который теряется без ежедневной обратной связи, рассматривается слабее.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

За 5-7 недель до планируемого собеса:

  1. Неделя 1-2 — NLP-deep dive и LLM. Transformer-архитектура (BERT, RuBERT, GPT, encoder-decoder), классификация интентов, NER, fine-tuning vs PEFT/LoRA, RAG-архитектуры, eval-стратегии (BLEU, ROUGE, human eval, LLM-as-judge). Если идёшь в ASR — изучи NeMo, Whisper, особенности русского языка. Прорешай 1-2 кейса с публичными NLP-данными (RuSST, SberQuAD). Параллельно — на Карьернике обнови базу по SQL, Python и ML: 1500+ задач, по 15-20 минут в день, чтобы за месяц закрыть пробелы и не путаться в простых вопросах про метрики и регуляризацию.
  2. Неделя 3 — Conversational AI и contact-center контекст. Прочитай блог Naumen, статьи про contact center AI (Twilio, Genesys, Cognigy), про conversational AI (Rasa, Dialogflow). Запомни понятия: NLU, NLG, intent, slot, AHT, FCR, CSAT, NPS, IVR, roster.
  3. Неделя 4 — Python + SQL live coding. 20-30 SQL Medium-задач, 30 простых на pandas.
  4. Неделя 5 — System Design кейсы. Прорешай 5-6 кейсов: AI-помощник оператору в реальном времени, классификация и роутинг обращений, summarization звонков, ITSM-тикет classification, ASR с доменной адаптацией. Структура — бизнес → метрики → данные → модель → enterprise-вопросы (latency, compliance) → eval → внедрение. ML system design.
  5. Неделя 6-7 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с клиентом, факап в проде, длинный enterprise-проект, история про работу с разметкой и качеством данных.

Частые ошибки

Не понимают enterprise-контекст. Кандидат рассказывает про быстрые продуктовые пилоты как в стартапе. В Naumen внедрение модели у клиента-банка — это 3-6 месяцев с compliance-checks, документацией, обучением сотрудников. Если в ответе нет ни слова про это — балл проседает.

Хайпуют LLM на любых задачах. Кандидат предлагает Llama 3 для классификации интента. Не упоминает, что для большинства интентов RuBERT даст 95% качества при предсказуемой latency и без проблем с compliance.

Не разбираются в contact-center метриках. «Что такое AHT, FCR, CSAT?» — кандидат теряется. На продуктовом интервью это сразу видно.

Не задают вопросы про данные и compliance. На кейсе сразу — модель, а не «какие данные мы можем использовать, какая PII, что насчёт ГОСТ Р 57580 для банковских клиентов». В enterprise-сегменте это первый фильтр.

Не учитывают latency и SLA. AI-помощник оператору в реальном времени имеет latency budget. Кандидат, который не упоминает это в дизайне — теряет балл.

Связанные темы

FAQ

Удалёнка в Naumen для DS?

Гибрид с офисами в Москве и Екатеринбурге. Полная удалёнка возможна для отдельных позиций (особенно senior+) и для отдельных команд. Для R&D-команд чаще офис или гибрид.

Зарплатные вилки 2026?

Middle DS: 230-360k. Senior: 360-560k. Lead/Staff — выше, особенно в Naumen Erudite и Speech AI. Годовая премия в формате компании, опционов нет.

Нужен ли английский?

Базовый — для документации и статей. Свободного говорящего обычно не требуется, основная команда русскоязычная. Для R&D с зарубежной литературой — плюс.

Сколько этапов?

5-6 этапов, 4-6 недель из-за corporate-процессов и compliance для regulated-клиентов.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по продуктовым направлениям.