Собеседование на Data Scientist в Учи.ру
Содержание:
Почему Учи.ру — особенный работодатель для DS
Учи.ру — крупнейший российский EdTech-сервис для школьников: интерактивные задания по школьной программе с 1 по 11 класс, использование в школах учителями и дома родителями. Миллионы активных школьников, десятки тысяч школ-партнёров, гибридная модель монетизации (бесплатный базовый + подписка на расширенный контент + B2B-партнёрства со школами). Для Data Scientist это редкая для RU-рынка возможность работать с K-12-аудиторией: дети как пользователи дают совсем другую поведенческую структуру, чем взрослые в Нетологии или Skyeng. Главное отличие — adaptive learning: каждый ребёнок должен получать задания нужной сложности, и это серьёзная ML-задача.
ML-домены: adaptive learning (выбор следующей задачи под текущий уровень и стиль ученика — Item Response Theory + ML), прогноз mastery (когда ученик усвоил тему), прогноз retention внутри программы и сезонной активности (длинные летние каникулы — особенный паттерн), recommendation (какую следующую тему / задачу показать), персонализация контента для разных классов, прогноз outcomes (улучшит ли тренажёр оценки по предмету в школе), NLP на ответах учеников (для open-ended заданий), уровень текстовой обратной связи (auto-feedback). Стек: Python, CatBoost, PyTorch, scikit-learn, ClickHouse, PostgreSQL, Airflow, Jupyter, MLflow, специфичные библиотеки для educational data mining.
Актуальные вакансии — на hh.ru и сайте Учи.ру.
Информация основана на публичных источниках и опыте кандидатов. Команды Учи.ру используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
Цикл 3–5 недель и включает 4–6 этапов. Процесс структурированный: 2 технических, продуктовая секция, поведенческое. Stepik-стиль культуры — техническая чистота ценится высоко.
1. HR-скрининг (30–45 минут)
Рекрутер проверяет: production-опыт DS (1+ год), причины смены работы, ожидания, интерес к школьному образованию. Опыт в EdTech, поведенческой аналитике или recommender / personalization — большой плюс. Питч 60–90 секунд.
2. Тестовое задание (3–5 дней)
Часто даётся: датасет с попытками заданий, нужно построить модель mastery или предсказания сложности задачи под ученика. Сильные кандидаты обсуждают Item Response Theory как baseline и сравнивают с ML-подходами.
3. ML / DS-теория (60–90 минут)
С senior DS из команды. Темы: классика (бустинги, регуляризация, метрики), recommender-теория, Bayesian подходы (актуально для IRT и adaptive learning), survival-анализ для retention, hierarchical modeling (ученики в классах в школах в регионах — multi-level), educational data mining (Knowledge Tracing, Bayesian Knowledge Tracing, Deep Knowledge Tracing).
Подготовка: Классическая ML на собесе, ML-теория.
4. Python + SQL live-coding (60 минут)
Live: 1–2 алгоритмических задачи (LeetCode Medium-Easy), 1–2 на pandas / SQL по учебным данным. SQL обычно классический: оконные функции, retention по дням / неделям внутри программы, JOIN на иерархических данных (предмет → класс → тема → задача).
Подготовка: Live-coding.
5. A/B и продуктовая секция (60–90 минут)
Спрашивают: дизайн эксперимента, sample size, MDE, ratio-метрики, peeking, специфика A/B на детях (этические ограничения, согласие родителей, сезонность). Продуктовая часть: «как ты бы построил adaptive learning для математики 5 класса», «как сегментировать платящих по успешности ребёнка», «как измерить долгосрочный эффект тренажёра на оценки в школе».
Подготовка: A/B и causal inference.
6. Поведенческое + культурный fit (30–45 минут)
С тимлидом и/или продактом. STAR-формат. Учи.ру ценит DS с интересом к образованию, готовностью работать с этически чувствительной аудиторией (дети), и умением объяснять модели non-tech коллегам (методистам, учителям-партнёрам).
Особенности по командам
Adaptive Learning. Главная и самая характерная команда: ML для подбора следующей задачи под ученика. Mix IRT, Knowledge Tracing (классический и deep), bandit-подходов для exploration. Это R&D-heavy роль: много экспериментов, чтения статей, кастомных моделей. Подойдёт DS с интересом к educational data mining и готовностью копать вглубь алгоритмически.
Retention & Engagement. Прогноз отписки и снижения активности, оптимизация уведомлений и triggered-email кампаний, реактивация после каникул. Сезонность здесь очень сильная: учебный год — высокий сезон, лето — отток.
Recommendation & Content. Меньше команда: рекомендации тем и задач, персонализация уроков, контент-based подходы. Тесная связка с методистами и редакторами контента.
B2B Analytics & School Partnerships. Учи.ру работает не только с родителями, но и со школами / учителями. Уникальная команда: метрики эффективности тренажёра для учителей, дашборды для классов и школ, прогноз outcomes (улучшат ли результаты ВПР после использования платформы).
Marketing & Conversion. Атрибуция, прогноз ROI каналов, оптимизация креативов. Аудитория — родители, что меняет каналы и сообщения по сравнению с adult-EdTech.
Content Quality Analytics. Меньше команда: метрики качества заданий, поиск задач с аномально высокой ошибкой ученика (что часто — баг задачи, а не неумение ребёнка), оценка преподавательской ценности контента.
Olympiad & Special Events ML. Уникальная команда: модели для онлайн-олимпиад и соревнований Учи.ру (Russian Codiana, олимпиады по математике и русскому), прогноз участия и performance, ранжирование результатов с учётом сложности заданий и времени решения. Подойдёт DS с интересом к competitive analytics.
Cross-Yandex Integration. Учи.ру входит в группу Mail.ru / VK, но также интегрируется с экосистемой Яндекса через образовательные продукты. Cross-ecosystem signal — отдельная тема для middle+ DS с пониманием data governance.
Что Учи.ру ценит в DS
Понимание возрастной специфики. Дети — не взрослые. Поведенческие паттерны иные, сезонность жёстче, этические ограничения серьёзнее. Кандидат, который применяет recsys из adult-EdTech без поправки, выглядит сыро.
Интерес к образованию. На собесе спросят, что ты бы улучшил в продукте. Если ответ обобщённый — минус. Сильный: «я заметил, что в задачах по математике 5 класса нет постепенного перехода от арифметики к геометрии, что увеличивает frustration; я бы проверил A/B-тестом adaptive bridge между этими темами».
Цифры в кейсах. Weak: «строил retention-модель». Strong: «обучил CatBoost для прогноза отказа от тренажёра, time-based валидация, в A/B на 25% за 14 дней +1.5pp 7-day retention в group exposed-to-personalized-content, p < 0.05; бизнес-эффект — около +X тыс. retained students в месяц». Цифры обязательны.
Этика данных по детям. Работа с данными несовершеннолетних — серьёзная зона ответственности (ФЗ-152, согласие родителей, ограничения на типы данных). Кандидат, не задающий вопросы про data privacy в кейсе с детьми, выглядит сыро.
Кросс-функциональность. DS работает с методистами, учителями-партнёрами, продактами, поддержкой. Готовность объяснять и слушать — критично.
Как готовиться: план
Минимум 5–7 недель. Неделя 1–2: ML-теория (классика, IRT, Knowledge Tracing — почитай статьи по educational data mining). Неделя 3: LeetCode + pandas (40 задач). Неделя 4: SQL — оконки, retention, hierarchical data. Неделя 5: A/B-теория + специфика на детях (этика, согласие). Неделя 6: продуктовая часть — зайди на Учи.ру, попробуй пару заданий, прочитай 2–3 материала про K-12 EdTech, подготовь STAR-истории. Неделя 7: mock-интервью.
Для тренировки реальных вопросов с DS-собесов — открывай Карьерник: 1500+ задач по SQL, Python, A/B, статистике, продуктовой аналитике и ML по темам и сложности.
Частые ошибки
Первая — применение взрослых паттернов к детям. Поведенческие модели у школьников — другие. Strong-кандидат на собесе сразу обсуждает разницу.
Вторая — игнорирование сезонности. Лето = низкий сезон. Кандидат, который строит retention-модель без учёта сезонной декомпозиции — серьёзный минус.
Третья — слабая этическая компонента. На вопрос «можно ли использовать сигнал X в модели» с детскими данными правильный ответ — задать уточняющие вопросы про согласие и compliance, а не сразу «да».
Четвёртая — игнорирование adaptive learning как core domain. Если ты на собесе фокусируешься только на retention и не понимаешь IRT — это сильный минус для DS в Учи.ру.
Пятая — слабое объяснение моделей нон-тех аудитории. Учи.ру работает с учителями и методистами, и DS должен уметь говорить с ними на одном языке.
Связанные темы
- Собеседование на Data Scientist в Stepik
- Собеседование на Data Scientist в Skyeng
- Собеседование на Data Scientist в Нетологии
- Собеседование на Data Scientist — гайд
FAQ
Сколько этапов в собесе DS в Учи.ру?
4–6 этапов: HR-скрининг, тестовое задание, ML / DS-теория (с упором на educational data mining), Python + SQL live-coding, A/B + продуктовая секция, поведенческое. Цикл — 3–5 недель.
Нужен ли опыт в K-12?
Желателен, но не обязателен. Главное — готовность изучить специфику и читать статьи по educational data mining до собеса.
Adaptive learning — это сильно сложнее обычного recsys?
Да, концептуально сложнее: добавляются модели mastery, exploration-exploitation, и иерархическая структура (ученики → классы → школы). Если ты приходишь без знакомства с IRT — выделите неделю на изучение.
Какой английский нужен?
B1–B2 минимум. Большая часть литературы по educational data mining — на английском.
Сколько платят DS в Учи.ру?
Зависит от грейда. Для middle DS — на уровне средних tech-компаний РФ, для senior — близко к рынку. Adaptive learning команда платит выше из-за специфики и редкости экспертизы.