Собеседование на Data Scientist в Skyeng
Содержание:
Почему Skyeng — особенный работодатель для DS
Skyeng — один из крупнейших EdTech-сервисов РФ по обучению английскому и не только. DS работает над персонализацией траектории обучения, прогнозом retention / churn студентов, рекомендациями уроков и преподавателей, NLP для проверки текстовых заданий, ML-классификацией ошибок учеников.
Особенность: EdTech — это медленный продукт (студенты учатся месяцами и годами), retention зависит от ощущения прогресса. DS строит модели, влияющие на учебный план студента, что напрямую отражается на bookings, revenue, completion rate. Подробнее — на странице карьеры Skyeng.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Специфика:
- Был ли опыт в EdTech / подписочных моделях
- Знание классического ML + базовый NLP
- Готовность работать на долгие циклы экспериментов
2. SQL и Python (45-60 минут)
SQL — middle (JOIN, оконки, CTE). Python — pandas, sklearn.
3. ML-теория (60-90 минут)
- Classical ML: LR, GBM, ансамбли
- Метрики classification + regression
- NLP базовый: TF-IDF, эмбеддинги, классификация
- Survival analysis для retention / time-to-churn
- A/B-тесты, особенно для длинных циклов
4. ML system design (60 минут)
«Спроектируй рекомендации уроков», «модель churn для подписки», «NLP-проверка домашних заданий».
5. Поведенческое (45 минут)
STAR-вопросы.
6. Финал
Технический + культурный.
Что Skyeng ценит в DS
- EdTech mindset. Понимание учебных метрик: completion rate, time-on-task, progress, mastery.
- Подписочные метрики. Trial conversion, churn, retention, ARPU.
- NLP базовый. Для проверки текстовых ответов.
- A/B на длинных циклах. Holdout, CUPED.
- Продуктовое мышление. Не «модель ради модели», а влияние на learning outcomes.
Типичные задачи и кейсы
- «Спроектируй рекомендации следующего урока для студента»
- «Модель churn подписки. Фичи, целевая, метрика»
- «NLP-проверка эссе: classification по уровню (A1-C2)»
- «Как мерить эффект персонализации на learning outcomes»
- «Cold start новых студентов: что рекомендовать в первые 3 урока»
Как готовиться: план
- Classical ML. Logistic regression, gradient boosting.
- NLP базовый. TF-IDF, BERT-эмбеддинги, классификация.
- Подписочные метрики. Trial conversion, retention curve, churn.
- A/B на длинных циклах. Holdout vs A/B.
- EdTech-домен. Учебные модели (mastery learning, spaced repetition, adaptive learning).
Частые ошибки
- Игнорировать learning outcomes. Retention высокий, но студент не учится — плохая модель.
- Короткие A/B. Эффект на learning видно через 4-8 недель.
- Кейсы без контекста студента. Уровень, цель, motivation — разные сегменты, разная модель.
- Слабая SQL. Уверенный middle обязателен.
Связанные темы
- Собеседование на Data Scientist
- Holdout vs A/B на практике
- CUPED — снижение дисперсии A/B
- Embeddings на собесе DS
- Метрики ML на собесе
FAQ
Сколько этапов в собеседовании на DS в Skyeng?
Обычно 5-6: рекрутер → SQL/Python → ML-теория → ML system design → поведенческое → финал. Срок 3-5 недель.
Нужен ли опыт в EdTech?
Желателен, но не обязателен. Релевантным считается любой subscription business + опыт с rec sys / NLP.
Какие алгоритмы спрашивают?
Classical ML обязательно. NLP базовый. Deep learning — только в командах, занимающихся NLP-задачами.
Какой уровень SQL?
Уверенный middle: оконки, CTE, JOIN.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.