Собеседование на Data Scientist в Stepik

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Stepik — особенный работодатель для DS

Stepik — российская образовательная платформа, исторически выросшая из академической среды (СПбГУ). В отличие от Нетологии или GeekBrains, Stepik — это в первую очередь платформа: тысячи курсов разных авторов и организаций (от университетов до индивидуальных преподавателей), бесплатный контент рядом с платным, гибкие модели монетизации (подписки, разовые покупки, корпоративные пакеты). Для Data Scientist это самая «платформенная» среда среди RU-EdTech: задачи ближе к marketplace-DS (recommendation, search, ranking), чем к классическому marketing-DS у Нетологии.

ML-домены: ранжирование курсов в каталоге и в подборках, recommendation смежных курсов и learning paths, search-ранжирование, прогноз completion rate и retention внутри курса, NLP на учебных материалах и форумах (модерация, классификация вопросов), automated grading для open-ended задач, sentiment / quality-метрики курсов, learning analytics для авторов (что улучшить в курсе), оптимизация маркетинговых кампаний и attribution. Стек: Python, CatBoost, PyTorch, scikit-learn, ClickHouse, PostgreSQL, Airflow, MLflow, внутренний A/B-фреймворк, отдельная инфраструктура под NLP-задачи.

Актуальные вакансии — на hh.ru и сайте Stepik.

Информация основана на публичных источниках и опыте кандидатов. Команды Stepik используют разные процессы — уточняйте у рекрутера.

Этапы собеседования

Цикл 3–5 недель и включает 4–5 этапов. Процесс структурированный, но менее формализованный, чем в больших корпорациях. Стек — академически чистый, культура — техническая.

1. HR-скрининг (30–45 минут)

Рекрутер проверяет: production-опыт DS (1+ год), причины смены работы, ожидания, интерес к образованию и платформенным продуктам. Опыт с recommender / search / ranking — большой плюс. Опыт в академической среде или в науке (PhD / публикации) — нейтральный плюс. Питч 60–90 секунд.

2. Тестовое задание (3–5 дней)

Часто даётся: датасет с учебными событиями (просмотры лекций, попытки задач), нужно построить модель completion / engagement или recommendation курсов. Сильные кандидаты обсуждают академически чистую валидацию и сложность работы с разреженными данными по индивидуальным курсам.

3. ML / DS-теория (60–90 минут)

С senior DS из команды. Темы: классика (бустинги, регуляризация, метрики), recommender-теория (CF, ALS, contextual bandits, контент-based фильтры), search и learning-to-rank (NDCG, MAP), NLP-базы (TF-IDF, embeddings, transformers — для модерации форумов и классификации вопросов), survival-анализ для retention. Готовься объяснять статистические основы без размытых формулировок.

Подготовка: Классическая ML на собесе, NLP-задачи.

4. Python + SQL live-coding (60 минут)

Live: 1–2 алгоритмических задачи (LeetCode Medium), 1–2 на pandas / SQL по учебным данным. SQL обычно классический: оконные функции, ratio-метрики, retention по дням / неделям внутри курса.

Подготовка: Live-coding, SQL-собес.

5. A/B и продуктовая секция (60–90 минут)

Спрашивают: дизайн эксперимента, sample size, MDE, ratio-метрики, peeking, как анализировать долгосрочный эффект на коротком тесте. Продуктовая часть: «как ты бы построил рекомендации курсов на главной», «как измерить эффект новой механики на completion rate», «как сегментировать платящих по типу обучения». Готовь конкретные кейсы.

Подготовка: A/B и causal inference.

6. Поведенческое + культурный fit (30–45 минут)

С тимлидом и/или продактом. STAR-формат. Stepik — компания с сильно технической культурой, ценит DS, которые могут писать чисто, объяснять решения логически и не любят magic-bullet решения.

Особенности по командам

Recommendation & Discovery. Главная команда: ранжирование курсов на главной и в каталоге, подборки, «похожие курсы», learning paths. Активно работает с CF, content-based, contextual bandits. Подойдёт DS с recsys-background и интересом к marketplace-DS.

Search & Catalog Ranking. Меньше команда: поисковое ранжирование внутри Stepik, обработка запросов с опечатками, ranking курсов по релевантности. Использует learning-to-rank подходы. Подойдёт DS с search-background.

Learning Analytics & Course Insights. Уникальная для платформенной модели команда: метрики качества курсов, completion rate prediction, прогноз retention внутри курса, выделение проблемных уроков (где много студентов застревают), helpful-метрики для авторов курсов. Mix классики и NLP. Подойдёт DS с интересом к education-метрикам.

NLP & Content ML. Меньше команда: модерация форумов (детекция токсичности, спама), классификация вопросов студентов, automated grading для open-ended ответов (особенно для языковых курсов), NLP на текстах лекций. Подойдёт DS с NLP-background.

Marketing & Conversion. Меньше команда, чем у Нетологии / GeekBrains: оптимизация маркетинговых кампаний, attribution, прогноз ROI каналов. Бюджеты ниже из-за независимой бизнес-модели.

B2B & University Partnerships. Уникальная для Stepik команда: работа с университетскими партнёрами и B2B-клиентами (компании используют Stepik для онбординга и переобучения сотрудников), аналитика эффективности корпоративных курсов, прогноз churn корпоративных контрактов. Подойдёт DS с интересом к enterprise-сегменту.

Forecasting & Author Analytics. Меньше команда: прогноз популярности новых курсов авторов (по метаданным и историческим аналогам), бенчмарки по категориям, поддержка авторов аналитикой о том, как улучшить курс. Тесная связка с автор-сетью.

Что Stepik ценит в DS

Техническая чистота. Stepik вырос из академической среды и ценит чистый код, чёткие формулировки, аккуратную валидацию. Слабый кандидат: «погнал CatBoost на всех фичах». Сильный: «сначала исследовал данные, выявил два класса попыток с разной природой, проверил гипотезу о том, что они должны обрабатываться отдельно, построил два маленьких модели вместо одной большой, A/B показал преимущество разделения».

Понимание marketplace / платформенной природы. Stepik — не Нетология с одной линейкой курсов, а платформа с тысячами курсов. Recsys-задачи здесь сложнее: cold start для новых курсов, popularity bias в сторону крупных, fairness между мелкими и крупными авторами.

Цифры в кейсах. Weak: «строил recommender». Strong: «обучил double-tower retrieval + CatBoost ranking для recsys курсов, NDCG@10 = 0.42, в A/B на 30% за 21 день +5.8% CTR в подборках и +1.4pp completion rate; бизнес-эффект — около +X тыс. completed courses в месяц». Цифры обязательны.

Готовность работать с разреженными данными. Многие курсы Stepik имеют сотни студентов, а не миллионы. Кандидат, привыкший к большим данным с регулярной активностью, будет страдать.

Любопытство и независимость. Компактные команды — DS должен брать инициативу. На собесе проверяют «как ты бы предложил новую feature для платформы».

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

Минимум 5–7 недель. Неделя 1–2: ML-теория (классика, recsys, ranking-метрики, NLP-базы). Неделя 3: LeetCode + pandas (50 задач). Неделя 4: SQL — оконки, retention, ratio. Неделя 5: A/B-теория, sequential testing для коротких тестов. Неделя 6: продуктовая часть — изучи Stepik (зайди на 2–3 курса, посмотри каталог, прочитай несколько отзывов), подготовь STAR-истории. Неделя 7: mock-интервью.

Для тренировки реальных вопросов с DS-собесов — открывай Карьерник: 1500+ задач по SQL, Python, A/B, статистике, продуктовой аналитике и ML по темам и сложности.

Частые ошибки

Первая — applying recsys из учебника без учёта marketplace-специфики. На платформе с тысячами авторов задача баланса между крупными и мелкими курсами серьёзная, и игнорировать её — minus.

Вторая — слабый код в тестовом задании. Stepik вырос из академической среды — техническая аккуратность ценится высоко. Беспорядочный notebook без структуры — серьёзный минус.

Третья — игнорирование разреженности данных. На малых курсах нет данных для классических recsys-подходов. Strong: обсуждение cold start, content-based fallback, hybrid-подходов.

Четвёртая — игнорирование learning analytics. Stepik много инвестирует в метрики качества обучения. Если ты на собесе фокусируешься только на бизнес-метриках, упускаешь важный пласт.

Связанные темы

FAQ

Сколько этапов в собесе DS в Stepik?

4–5 этапов: HR-скрининг, тестовое задание, ML / DS-теория, Python + SQL live-coding, A/B + продуктовая секция, поведенческое. Цикл — 3–5 недель.

Чем DS в Stepik отличается от DS в Нетологии?

Stepik — платформа с тысячами курсов, задачи ближе к marketplace-DS. Нетология — bundled-EdTech с одной линейкой программ, задачи ближе к marketing-DS. По стеку — оба близкие, но Stepik больше про recsys и learning analytics.

Нужен ли академический бэкграунд?

Желателен, но не обязателен. Stepik вырос из академии и ценит техническую чистоту. PhD или сильные публикации — плюс.

Какой английский нужен?

B1–B2 минимум. Для senior — выше. Stepik работает с международными авторами и часть документации на английском.

Сколько платят DS в Stepik?

Зависит от грейда. Для middle DS — на уровне средних tech-компаний РФ, для senior — близко к рынку. Recsys-команда обычно платит выше, чем общая аналитика.

Какие задачи самые «академически глубокие»?

Adaptive learning для языковых курсов и computer-science-курсов (с automated grading), recsys на разреженных данных (когда у курса 200 студентов), и анализ paths обучения на сложных предметах — это R&D-heavy роли, требующие чтения статей и кастомных моделей.

Как Stepik работает с авторами курсов?

DS поддерживает авторов data-инсайтами: что улучшить в курсе, где студенты застревают, какие задачи слишком сложные или слишком лёгкие. Эта горизонтальная работа отличает Stepik от закрытых EdTech-сервисов с собственным контентом.