Собеседование на Data Scientist в Selectel

Прокачай SQL для собеса
500+ задач по SQL: оконные функции, JOIN, CTE — с разбором каждой
Тренировать SQL в Telegram

Почему Selectel — особенный работодатель для DS

Selectel — один из крупнейших независимых российских облачных провайдеров: дата-центры в Москве, Санкт-Петербурге и регионах, dedicated-серверы, IaaS-инфраструктура, managed-сервисы Kubernetes и баз данных, объектное хранилище. Для DS это значит работа на стыке инфраструктуры и продукта — модели здесь не для рекомендаций фильмов и не для скоринга кредитов, а для того, чтобы оптимально планировать железо, ловить аномалии на тысячах серверов и предсказывать поведение enterprise-клиентов, которые платят по сложным тарифам и подписывают многолетние контракты.

Главные ML-домены: capacity-прогноз (сколько железа закупать в каждый ЦОД и когда), anomaly detection на телеметрии серверов и сети, прогноз сбоев дисков и оборудования (predictive maintenance), churn enterprise-клиентов (раннее предупреждение об уходе крупного аккаунта), кросс-сейл managed-сервисов в облаке, ценообразование и elasticity-аналитика. NLP-задач почти нет, зато много time-series и табличного ML на индустриальных данных. Большая часть моделей идёт не в realtime-инференс, а в pipelines, которые крутятся раз в час или раз в сутки и кормят дашборды для capacity planners и саппорта.

Стек: Python + scikit-learn + CatBoost/LightGBM + Prophet/statsmodels для рядов + PyTorch для редких задач (например, deep anomaly detection); ClickHouse и Greenplum для хранения метрик и истории; Airflow для пайплайнов; MLflow или внутренние трекинговые инструменты. Production часть — на Kubernetes (логично, это их продукт), частично — внутренние сервисы Selectel.

Актуальные вакансии — на hh.ru и сайте Selectel.

Информация основана на публичных источниках и опыте кандидатов. Команды Selectel используют разные процессы — формат и этапы зависят от направления и грейда, уточняйте у рекрутера.

Этапы собеседования

Полный цикл — от первого скрининга до оффера — обычно занимает 3-5 недель и включает 4-5 этапов. Процесс прагматичный, без избыточных раундов: ML-теория, кодинг, продуктово-инфраструктурный кейс, секция с командой. Хедхантят не очень агрессивно, но входной поток высокий, поэтому отсев на скрининге плотный.

1. HR-скрининг (30 минут)

Рекрутер уточняет базовые вещи: production-опыт ML (от 1 года и желательно с табличными данными или time-series, а не только NLP-pet-project), знание инфраструктуры (хотя бы базовое понимание Linux, Docker, K8s — это специфика Selectel), мотивацию идти в B2B-облако, ожидания по компенсации. Если в прошлом был опыт в telco, банке или у другого облачного провайдера — это сильный плюс, потому что задачи похожи. Готовь короткий питч на 60-90 секунд про самый зрелый production-кейс с цифрами.

2. ML-теория и табличный ML (60-75 минут)

Базовая секция со старшим DS из команды. Темы, которые встречаются регулярно: градиентный бустинг (Catboost/LightGBM, регуляризация, обработка категориальных фичей), классические методы (логистическая регрессия и её интерпретация коэффициентов, метрики классификации — особенно ROC-AUC vs PR-AUC при дисбалансе классов), feature engineering для табличных задач, time-series (Prophet, ARIMA, holdout-стратегии для рядов, anti-leakage), методы детекции аномалий (Isolation Forest, autoencoders, robust z-score). Глубоких LLM-вопросов нет — это не Кинопоиск и не Сбер. Будь готов разобрать кейс «как ты предсказывал бы загрузку дисков в ЦОДе на 6 месяцев вперёд».

Подготовка: классическая ML, time series.

3. Python + SQL live coding (60 минут)

Задачи попроще, чем в Яндексе или Тинькоффе: 1-2 на Python (стандартные структуры данных, обработка списков, простая динамика, работа с pandas/numpy) и 1-2 на SQL (агрегаты, оконные функции, JOIN, фильтры по времени). Часто встречается живая обработка реальных данных: «дам тебе фрейм с метриками серверов, посчитай долю времени, когда CPU > 80% по каждому ЦОДу». Без LeetCode Hard, но и без пощады к плохо знающим pandas.

Подготовка: live coding.

4. Кейс / ML System Design (60-90 минут)

Здесь делается основная ставка. Тебе дают продуктовый или инфраструктурный кейс: «спроектируй систему раннего обнаружения сбоев на парке из 5 000 серверов», «как бы ты построил churn-модель для enterprise-клиента, который платит 5М в месяц», «как оценить эффект промо-скидки на retention». Нужно: уточнить бизнес-метрику и продуктовую цель, описать данные (что есть в логах, что нужно собирать дополнительно), выбрать тип модели и обосновать, спроектировать пайплайн (offline vs online, как часто перепереобучать, как валидировать), обсудить мониторинг и деградации, ответить на вопросы про false-positive cost для саппорта. Слабые ответы — где кандидат сразу бросается в «возьмём нейросеть»; сильные — где видно понимание trade-off между точностью и операционной нагрузкой на людей, которые потом разбирают алерты.

Подготовка: ML system design, метрики модели.

5. Финал / тимлид + кросс-фит (45-60 минут)

Беседа с тимлидом или PM-ом смежной команды. Проверяют поведенческие истории (STAR), отношение к чёрной операционной работе (data quality, разметка, починка пайплайна — часть будней DS в Selectel), готовность работать в гибриде или офисе СПб/Москвы, обсуждают грейд и оффер. На этом этапе редко отказывают, но цифры могут поджать.

Особенности по командам

Capacity planning и инфраструктурная аналитика. Самая большая ML-команда: прогноз нагрузки на ЦОДы, планирование закупок железа, оптимизация миграций ВМ между нодами. Модели — time-series на годы вперёд + симуляции. Главные челленджи: длинные ряды с резкими сменами тренда (рост или потеря крупного клиента ломает модель), отсутствие классических «промо» и «сезонов» как в e-commerce, необходимость интерпретируемых ответов для инженеров. Стек — Python + Prophet/statsmodels + ClickHouse. Подойдёт кандидатам с background в supply-chain forecasting, telco или энергетике.

Anomaly detection и SRE-аналитика. Команда работает в плотной связке с инженерами эксплуатации: ловит аномалии в метриках серверов, сети и хранилищ, предсказывает сбои дисков и блок-устройств. Стек — Python + Isolation Forest + autoencoders + Grafana/Prometheus как источник данных. Главный челлендж — false-positive rate: ложный алерт раз в час убивает доверие к модели. Подойдёт инженерам, которые любят разбираться, что значит каждая метрика, и готовы дежурить или хотя бы общаться с дежурной сменой.

Customer analytics и B2B-churn. Маленькая команда, занимается прогнозом ухода крупных клиентов, кросс-сейлом managed-сервисов, оценкой LTV для разных сегментов. Стек — Catboost + Greenplum/ClickHouse + дашборды. Челлендж — выборка маленькая (enterprise-клиентов сотни, не миллионы), поэтому деревья глубоко не зайдут, нужны умные фичи и interpretable-модели. Подойдёт кандидатам с опытом B2B-аналитики, банковским scoring-фоном или маркетинг-аналитике в SaaS.

Pricing и elasticity. Точечно: эксперименты по тарифам, оценка эластичности спроса на разные конфигурации серверов, влияние акций на конверсию. Часть проектов — на стыке с финансами. Стек — Python + статистические модели + A/B-тесты. Подойдёт DS с опытом в маркетинге или ритейле.

Что Selectel ценит в DS

Production-опыт на табличке и time-series. В Selectel редко берут «чистых DL-щиков» без production-стажа на скучных табличных задачах. Сильный сигнал — история про модель, которая крутится в проде N месяцев, кормит дашборд или сервис, и про которую кандидат может рассказать, как мониторил drift и как обновлял.

Понимание инфраструктуры. Это не обязательно «писал Helm-чарты», но базовое понимание, что такое контейнеры, оркестрация, кубернетес, дата-центр и физические серверы — критично. Если ты никогда не открывал docker-compose, на System Design это будет видно.

Прагматизм над хайпом. В Selectel ценят «давай попробуем линейку и Catboost сначала», а не «возьмём transformer». Кандидат, который на System Design предлагает MLP вместо градиентного бустинга на 50 фичах, в большинстве команд получит -1.

Weak vs strong на System Design. Слабый ответ: «возьмём LSTM для прогноза загрузки, потому что это time-series». Сильный ответ: «начну с naive (последнее значение + сезонная декомпозиция), сравню с Prophet и градиентным бустингом на лагах. LSTM — только если три предыдущих не дают нужного MAPE, и при этом я понимаю, что LSTM требует обновления модели каждый месяц, а Prophet можно перезапускать раз в неделю автоматически — поэтому в первой итерации LSTM не пойдёт».

Коммуникация с инженерами. DS работает плотно с SRE и саппортом — людьми, которые не знают, что такое ROC-AUC, но точно знают, что значит «алерт в 3 ночи». Умение объяснять модель и trade-off на их языке — ежедневная компетенция.

Self-management. Команды небольшие, нет толпы продактов и аналитиков, которые принесут готовый ТЗ. DS сам формулирует задачу, согласует метрики, собирает данные, тестирует и катит в прод. Senior+ кандидатам это знакомо, junior — может быть тяжело.

Прокачай SQL для собеса
500+ задач по SQL: оконные функции, JOIN, CTE — с разбором каждой
Тренировать SQL в Telegram

Как готовиться: план

За 6-8 недель до планируемого собеса:

  1. Неделя 1-2 — Табличный ML и time-series. Освежи Catboost/LightGBM (категориальные фичи, регуляризация, ordered boosting), методы валидации для рядов (rolling-origin, не голый k-fold), Prophet и ARIMA с детектированием сезонности. Прорешай 1-2 Kaggle-кейса с time-series или индустриальными данными. Параллельно — закрой пробелы по теории на Карьернике: 1500+ задач по SQL, Python и ML, в день по 15 минут хватает, чтобы за месяц перестать спотыкаться на «опиши разницу precision/recall» и подобных базовых вопросах.
  2. Неделя 3 — Anomaly detection и SRE-контекст. Isolation Forest, autoencoders, robust статистики, понятие false-positive cost. Прочитай блоги Selectel и любых других облачных провайдеров (Yandex Cloud, VK Cloud, AWS) про anomaly detection — формирует словарь.
  3. Неделя 4 — SQL и Python live coding. Прорешай 20-30 SQL-задач уровня LeetCode Medium на оконки и JOIN, 30-50 простых Python-задач на pandas. Без LeetCode Hard — у Selectel такого нет. SQL для DS.
  4. Неделя 5 — System Design кейсы. Прорешай 5-6 кейсов: capacity-прогноз, anomaly detection, churn enterprise, fraud, pricing. Структура ответа — бизнес → метрики → данные → модель → A/B → monitoring. ML system design.
  5. Неделя 6 — Инфраструктура. Если не работал — пройди базовые туториалы по Docker и K8s. Не нужно становиться DevOps, но понимать, что такое pod, deployment, service, обязательно. На System Design это спрашивают.
  6. Неделя 7-8 — Mocks и behavioral. 2-3 mock-интервью с друзьями. Готовь 5-7 STAR-историй: конфликт с инженером эксплуатации, факап с моделью в проде, кейс, где модель решили не катить.

Частые ошибки

Хайпуют нейронками на табличных задачах. Кандидат с pet-project на трансформерах приходит, и его спрашивают, как бы он сделал прогноз CPU-нагрузки. Если ответ начинается с «возьмём BERT» — оффера не будет. На табличке gradient boosting почти всегда лучше нейронок, и Selectel это знает.

Не разбираются в инфраструктуре. «Я DS, я в Kubernetes не лезу» — нерабочая позиция в облачном провайдере. Хотя бы пару статей про K8s до собеса прочитай.

Не думают про false-positive cost. На System Design все говорят про accuracy и AUC, никто не говорит про то, что каждый ложный алерт — это будильник дежурному инженеру. Если в ответе нет фразы «допустим X% false-positive — это сколько ложных тикетов в день?», балл просядет.

Не умеют объяснить модель простым языком. На финале с тимлидом часто просят: «объясни эту модель так, чтобы саппорт понял». Кандидаты теряются, начинают про градиенты и lazy gradient steps. Сильный кандидат — переводит на язык «модель видит, что вот этот сервер начал чаще делать вот такие операции, и это раньше было перед поломкой».

Не задают вопросы про данные. На кейсе кандидат сразу бросается в модель, не уточнив, как данные собираются, какая частота, какие пропуски, как чистится телеметрия. Это первый фильтр.

Связанные темы

FAQ

Удалёнка в Selectel для DS?

Преимущественно гибрид с офисами в Москве и Санкт-Петербурге. Полностью удалённые позиции бывают, но реже — особенно для senior+, где ценят живое общение с инженерами эксплуатации. Уточняйте у рекрутера на скрининге.

Зарплатные вилки 2026?

Middle DS: 230-360k. Senior: 360-560k. Lead/Staff — выше, но команды небольшие, грейдов не так много. Опционов нет, бонусная часть скромнее, чем в Тинькофф или Яндексе, зато процессы спокойнее.

Нужен ли английский?

Базовый, чтобы читать документацию и статьи. Свободного говорящего не требуется — клиенты и команды русскоязычные.

Сколько этапов?

4-5 этапов, 3-5 недель от первого скрининга до оффера. Selectel славится тем, что не затягивает процесс — если ты подходишь, обратная связь приходит быстро.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды могут отличаться по командам.