Собеседование на Data Scientist в Naumen
Содержание:
Почему Naumen — особенный работодатель для DS
Naumen — крупная российская enterprise-SaaS компания: продукты для контакт-центров (Naumen Contact Center, Naumen Erudite), ITSM/BPM-платформы (Naumen Service Desk), CRM, knowledge management, omnichannel, документооборот. Клиенты — преимущественно средний и крупный бизнес, государственные структуры и регулируемые отрасли. Для Data Scientist это специфический работодатель: enterprise B2B-контекст (длинные циклы продаж, сложные интеграции, регуляторика), но при этом ML-задачи современные — много NLP и conversational AI (естественно — ключевой продукт Naumen Erudite это AI-помощник для контакт-центров).
Главные ML-домены: speech-to-text для русского языка (ASR для контакт-центров с шумом и диалектами); NLP-классификация интентов из обращений; диалоговые модели для chatbot/voicebot; sentiment-анализ операторских разговоров; summarization звонков; recsys ответов оператору в реальном времени; классификация и роутинг тикетов в ITSM; антифрод в обращениях; внутренняя аналитика SaaS-метрик (churn клиентов Naumen, expansion). Часть моделей — глобальные сервисы как фичи продукта Naumen Erudite, часть — кастомные модели под крупных клиентов с уникальной разметкой.
Стек: Python + PyTorch + Catboost + LightGBM + специализированные ASR-инструменты (NVIDIA NeMo, Kaldi, собственные доработки); PostgreSQL + ClickHouse для аналитики; Spark для тяжёлых пайплайнов; собственная feature-инфраструктура; MLflow и внутренние инструменты для трекинга; Kubernetes для serving. ML-команда довольно зрелая по российским меркам, особенно в conversational AI.
Актуальные вакансии — на hh.ru и сайте Naumen.
Информация основана на публичных источниках и опыте кандидатов. Команды Naumen используют разные процессы — формат и этапы зависят от направления и грейда, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 4-6 недель, 5-6 этапов. Процесс корпоративный, но в R&D-направлениях быстрее: HR, ML-теория, кодинг и SQL, продуктовый кейс с заказчиком, финал. Алгоритмическая планка средняя, без LeetCode Hard. Для ролей с regulated-клиентами есть дополнительный compliance-этап.
1. HR-скрининг (30-45 минут)
Рекрутер уточняет: production-опыт ML (от 1.5-2 лет, желательно с NLP или ASR), знание enterprise SaaS-контекста, мотивацию идти именно в Naumen, ожидания по компенсации и формату работы (Москва, Екатеринбург — это два больших офиса Naumen, есть гибрид и удалёнка). Готовь питч на 90 секунд про самый зрелый production-кейс с цифрами.
2. ML-теория и conversational AI (60-90 минут)
Базовая секция со старшим DS из направления. Темы: для NLP/ASR-команд основной фокус — transformer-архитектура (BERT, RuBERT, GPT, encoder-decoder), классификация интентов, NER, sentiment, multi-turn dialog systems, RAG-архитектуры, ASR (CTC, RNN-T, Whisper, особенности русского языка), fine-tuning vs PEFT; для табличных команд — Catboost/LightGBM, классические методы, метрики, дисбаланс. Если идёшь в Naumen Erudite — будет глубокая часть про LLM и conversational AI, eval-стратегии (BLEU, ROUGE, human eval, LLM-as-judge).
Подготовка: классическая ML, NLP задачи, метрики модели.
3. Python + SQL live coding (60 минут)
Задачи прагматичные: 1-2 на Python (pandas, базовые алгоритмы, обработка текста), 1-2 на SQL (агрегаты, JOIN, оконные функции). Часто живой кейс: «дам тебе фрейм с обращениями в контакт-центр, найди топ-5 категорий обращений, у которых вырос объём за последний месяц». Без LeetCode Hard. Готовиться: 20-30 SQL Medium-задач + 30 простых на pandas.
Подготовка: live coding.
4. Продуктовый кейс с заказчиком (90 минут)
Самая характерная секция. Кейс продуктовый: «спроектируй роутер обращений в контакт-центре банка-клиента», «как ты бы построил summarization звонков для крупного телекома», «как сделать AI-помощника оператору, который рекомендует ответ в реальном времени». Нужно: уточнить бизнес-метрику, описать данные (что есть у клиента, что нужно собрать), выбрать модель, продумать пайплайн (offline vs online inference, latency), учесть compliance (PII, регуляторика), обсудить eval (human-in-the-loop, A/B). Сильный сигнал — учёт того, что Naumen работает с enterprise-клиентами, где compliance и SLA — не пустые слова.
Подготовка: ML system design.
5. Поведенческое + culture fit (45 минут)
С тимлидом или руководителем направления. STAR-формат: расскажи про конфликт с клиентом, факап в проде, длинный enterprise-проект. Naumen ценит зрелость и готовность работать с requirements от крупных клиентов.
6. Финал с руководителем (30 минут)
Финальная встреча: грейд, оффер. Корректировки по цифрам.
Особенности по командам
Naumen Erudite (conversational AI). Флагманская AI-команда Naumen: chatbot, voicebot, AI-помощник оператору, generative summary звонков. Стек — PyTorch + transformer-модели (RuBERT, RuGPT, Llama-flavor) + LLM-интеграции + ASR (Whisper, NeMo) + Triton для serving. Челлендж — production-grade conversational AI на enterprise-данных с требованиями к latency и compliance. Подойдёт DS с серьёзным NLP-фоном и интересом к продуктовым LLM-кейсам.
Contact Center DS. Команда занимается аналитикой контакт-центров клиентов: классификация обращений, прогноз нагрузки, sentiment, оценка качества операторских разговоров. Стек — Python + Catboost + transformer-модели для классификации + Spark + ClickHouse. Челлендж — каждый клиент — это своя разметка и метрика. Подойдёт DS с NLP-фоном или background в contact center analytics.
ITSM/BPM-аналитика. Команда строит классификацию и роутинг тикетов в Naumen Service Desk, прогноз времени решения, recsys решений из базы знаний. Стек — Python + Catboost + классические NLP + retrieval-модели. Подойдёт DS с background в IT-аналитике или информационных системах.
ASR / Speech AI. Команда занимается speech-to-text для русского языка: оптимизация под шум, диалекты, доменную лексику клиентов; speaker diarization. Стек — NeMo, Whisper, Kaldi, кастомные доработки + PyTorch. Челлендж — русский язык в проде на enterprise-данных контакт-центров. Подойдёт DS со специализацией в Speech AI.
Internal SaaS analytics. Команда внутренних DS: churn клиентов Naumen, expansion, NPS, поддержка load prediction. Стек — Catboost + классические методы + дашборды + ClickHouse. Подойдёт кандидатам с B2B-SaaS background.
Что Naumen ценит в DS
Production-опыт. Не Kaggle-experience, а модель в проде с количественным эффектом. История «запустил классификатор обращений в контакт-центр клиента-банка, +18% точность роутинга, минус 25% времени на обработку обращения» — сильный сигнал.
NLP / Speech AI глубина. В Naumen Erudite ценится глубина в одном направлении — NLP или ASR. Узкий специалист с серьёзным DL-опытом проходит часто легче, чем «всеядный» DS без фокуса.
Enterprise-мышление. Naumen работает с крупными клиентами (банки, госструктуры, телеком). Compliance, SLA, длинные циклы продаж и внедрения — норма. Кандидат, который этого не понимает, не пройдёт.
Weak vs strong на System Design. Слабый ответ: «возьмём fine-tune Llama 3 для AI-помощника оператору в реальном времени». Сильный ответ: «начну с retrieval (RAG) на базе знаний клиента + классификатор интента на RuBERT — это даёт production-ready решение с предсказуемой latency и интерпретируемостью. LLM как генератор — следующий шаг, если выходим на потолок и при этом я заложу human-in-the-loop eval, latency budget < 800ms, compliance checks на каждый ответ (no-PII, fallback на стандартные ответы при low confidence). На каждом шаге метрика — не accuracy, а доля принятых оператором ответов и среднее время диалога».
Готовность к корпоративной среде. Naumen — корпоративный B2B с регламентами, compliance-проверками, длинными циклами внедрения. Кандидат, который ругает «бюрократию» вообще, рискует получить -1.
Self-management. Циклы проектов длинные (3-6 месяцев на внедрение модели у клиента). DS, который теряется без ежедневной обратной связи, рассматривается слабее.
Как готовиться: план
За 5-7 недель до планируемого собеса:
- Неделя 1-2 — NLP-deep dive и LLM. Transformer-архитектура (BERT, RuBERT, GPT, encoder-decoder), классификация интентов, NER, fine-tuning vs PEFT/LoRA, RAG-архитектуры, eval-стратегии (BLEU, ROUGE, human eval, LLM-as-judge). Если идёшь в ASR — изучи NeMo, Whisper, особенности русского языка. Прорешай 1-2 кейса с публичными NLP-данными (RuSST, SberQuAD). Параллельно — на Карьернике обнови базу по SQL, Python и ML: 1500+ задач, по 15-20 минут в день, чтобы за месяц закрыть пробелы и не путаться в простых вопросах про метрики и регуляризацию.
- Неделя 3 — Conversational AI и contact-center контекст. Прочитай блог Naumen, статьи про contact center AI (Twilio, Genesys, Cognigy), про conversational AI (Rasa, Dialogflow). Запомни понятия: NLU, NLG, intent, slot, AHT, FCR, CSAT, NPS, IVR, roster.
- Неделя 4 — Python + SQL live coding. 20-30 SQL Medium-задач, 30 простых на pandas.
- Неделя 5 — System Design кейсы. Прорешай 5-6 кейсов: AI-помощник оператору в реальном времени, классификация и роутинг обращений, summarization звонков, ITSM-тикет classification, ASR с доменной адаптацией. Структура — бизнес → метрики → данные → модель → enterprise-вопросы (latency, compliance) → eval → внедрение. ML system design.
- Неделя 6-7 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с клиентом, факап в проде, длинный enterprise-проект, история про работу с разметкой и качеством данных.
Частые ошибки
Не понимают enterprise-контекст. Кандидат рассказывает про быстрые продуктовые пилоты как в стартапе. В Naumen внедрение модели у клиента-банка — это 3-6 месяцев с compliance-checks, документацией, обучением сотрудников. Если в ответе нет ни слова про это — балл проседает.
Хайпуют LLM на любых задачах. Кандидат предлагает Llama 3 для классификации интента. Не упоминает, что для большинства интентов RuBERT даст 95% качества при предсказуемой latency и без проблем с compliance.
Не разбираются в contact-center метриках. «Что такое AHT, FCR, CSAT?» — кандидат теряется. На продуктовом интервью это сразу видно.
Не задают вопросы про данные и compliance. На кейсе сразу — модель, а не «какие данные мы можем использовать, какая PII, что насчёт ГОСТ Р 57580 для банковских клиентов». В enterprise-сегменте это первый фильтр.
Не учитывают latency и SLA. AI-помощник оператору в реальном времени имеет latency budget. Кандидат, который не упоминает это в дизайне — теряет балл.
Связанные темы
- Собеседование на Data Scientist
- NLP задачи на собесе
- ML system design
- Собеседование на ML Engineer в Naumen
- Собеседование на AI PM в Naumen
FAQ
Удалёнка в Naumen для DS?
Гибрид с офисами в Москве и Екатеринбурге. Полная удалёнка возможна для отдельных позиций (особенно senior+) и для отдельных команд. Для R&D-команд чаще офис или гибрид.
Зарплатные вилки 2026?
Middle DS: 230-360k. Senior: 360-560k. Lead/Staff — выше, особенно в Naumen Erudite и Speech AI. Годовая премия в формате компании, опционов нет.
Нужен ли английский?
Базовый — для документации и статей. Свободного говорящего обычно не требуется, основная команда русскоязычная. Для R&D с зарубежной литературой — плюс.
Сколько этапов?
5-6 этапов, 4-6 недель из-за corporate-процессов и compliance для regulated-клиентов.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по продуктовым направлениям.