Собеседование на Data Engineer в Selectel
Содержание:
Почему Selectel — особенный работодатель для DE
Selectel — один из крупнейших независимых российских облачных провайдеров: дата-центры в Москве, Санкт-Петербурге и регионах, dedicated-серверы, IaaS-инфраструктура, managed-сервисы Kubernetes и баз данных, объектное хранилище. Для Data Engineer это специфический контекст: основной поток данных — телеметрия с тысяч серверов и сетевых устройств плюс биллинг и события API облака, плюс B2B-аналитика enterprise-клиентов. Объёмы серьёзные (миллиарды метрик в день), но семантика проще, чем у банка или e-com.
Главные DE-домены: pipeline телеметрии серверов и сетевого оборудования (Prometheus-style метрики, логи, события); биллинг-DWH (расход ресурсов клиентов с точностью до минуты); capacity-витрины (планирование закупок железа и миграций ВМ); B2B-аналитика для клиентов (dashboards в личном кабинете как product feature); внутренняя SaaS-аналитика (churn, expansion, NPS); регуляторная отчётность для гос-облака; CRM-витрины.
Стек: ClickHouse как основной аналитический DWH (Selectel известен большим использованием ClickHouse) + Greenplum/PostgreSQL для классических витрин; Kafka + Debezium для CDC и стрима телеметрии; Airflow + dbt + Spark; data lake на S3-совместимых хранилищах (логично — это их продукт); Prometheus + Grafana для observability. Часть legacy в PostgreSQL, активная модернизация на ClickHouse.
Актуальные вакансии — на hh.ru и сайте Selectel.
Информация основана на публичных источниках и опыте кандидатов. Команды Selectel используют разные процессы — формат и этапы зависят от направления и грейда, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 3-5 недель, 4-5 этапов. Процесс прагматичный, без избыточной бюрократии: HR, техническое интервью, кодинг и SQL, продуктово-архитектурный кейс, финал. Алгоритмическая планка средняя.
1. HR-скрининг (30 минут)
Рекрутер уточняет: production-опыт DE (от 1.5-2 лет, желательно с большими time-series или infra-данными), знание ClickHouse, мотивацию идти в Selectel, ожидания по компенсации и формату (Москва, Санкт-Петербург, гибрид). Готовь питч на 90 секунд про самый зрелый production-pipeline.
2. Техническое интервью / SQL и архитектура (60-90 минут)
Базовая секция с senior DE из команды. Темы: SQL deep dive (оконные функции, рекурсивные CTE, оптимизация запросов на огромных таблицах, partitioning, ClickHouse-специфика — MergeTree, материализованные представления, projections, argMax, runningAccumulate, sequenceCount), модели данных (звезда, снежинка, SCD типы — для биллинга часто используется), batch vs streaming, CDC (Debezium), data quality, data lineage. Специфический вопрос: «как ты бы построил pipeline для биллинга с агрегацией метрик использования ресурсов с точностью до минуты на миллионы серверов и долгом хранением».
Подготовка: SQL для DE, ClickHouse и OLAP, Kafka streaming.
3. Python + SQL live coding (60 минут)
Задачи прагматичные, без LeetCode Hard: 1-2 на SQL (оконки, JOIN, оптимизация — часто на time-series или биллинг-данных), 1-2 на Python (pandas, простые ETL, обработка JSON-payload). Часто живой кейс: «дам тебе таблицу с метриками CPU тысяч серверов, посчитай долю серверов с использованием > 80% по часам». Готовиться: 30-50 SQL Medium-Hard задач + 20 простых на Python. Желательно подучить ClickHouse-специфику.
Подготовка: SQL для DE.
4. Продуктово-архитектурный кейс (60-90 минут)
Самая характерная секция. Кейс архитектурный: «спроектируй pipeline биллинга облака с агрегацией расхода ресурсов и формированием счетов клиентам», «как ты бы построил витрину для anomaly detection на телеметрии серверов», «как сделать B2B-аналитику в личном кабинете клиента с агрегатами расходов и капасити». Нужно: уточнить требования (объём, SLA, регуляторика, точность биллинга), описать архитектуру, выбрать стек и обосновать, продумать data quality и monitoring, обсудить trade-off batch vs streaming, заложить план рекавери. Сильный сигнал — учёт точности биллинга: каждая копейка должна сходиться с использованием.
Подготовка: Airflow patterns, Monitoring и data quality.
5. Финал с тимлидом / руководителем направления (45 минут)
Беседа с тимлидом или руководителем. Проверяют поведенческие истории (STAR), отношение к работе с инфраструктурой и инженерами эксплуатации, обсуждают грейд. Selectel ценит культурный fit и готовность работать с SRE-командой.
Особенности по командам
Телеметрия и observability DE. Команда строит pipeline телеметрии серверов и сетевого оборудования: метрики, логи, события. Стек — Kafka + ClickHouse + Prometheus + кастомные стриминговые сервисы. Челлендж — миллиарды метрик в день, разная частота источников, требования к долгому хранению для compliance. Подойдёт DE с background в стримах и observability.
Биллинг-DWH. Команда отвечает за корректность биллинга: агрегация расхода ресурсов до минуты, формирование счетов, обработка скидок и промо. Стек — Greenplum/PostgreSQL + Airflow + dbt + специализированные расчётные движки. Челлендж — точность (каждая копейка должна сходиться), reconciliation с биллингом, регуляторные требования. Подойдёт DE с financial-DWH опытом или background в telco-биллинге.
Capacity и инфраструктурная аналитика. Команда занимается планированием капасити: прогноз нагрузки ЦОДов, оптимизация миграций ВМ, планирование закупок железа. Стек — ClickHouse + Spark + Airflow + dbt. Челлендж — длинные временные ряды, корреляция с инцидентами и миграциями крупных клиентов. Подойдёт DE с интересом к infra-аналитике.
B2B-product витрины. Команда строит data products для клиентов: dashboards в личном кабинете, API для выгрузки расходов, отчёты по использованию. Стек — ClickHouse + API gateway + кастомные сервисы. Челлендж — multi-tenant продукт со строгими гарантиями приватности данных клиентов, низкая latency. Подойдёт DE с B2B SaaS-фоном.
Internal SaaS analytics. Команда внутренних DE: churn, expansion, NPS, поддержка load prediction. Стек — dbt + Greenplum + ClickHouse + кастомные дашборды. Подойдёт кандидатам с B2B-SaaS background.
Что Selectel ценит в DE
Production-опыт. Не Kaggle-experience, а pipeline в проде с SLA. «Запустил телеметрия-pipeline на 3 миллиарда метрик в день, P99 latency < 30 секунд, 99.95% доступность» — это история.
Понимание инфраструктуры. Кандидат, который понимает Linux, Kubernetes, метрики SRE, observability — сильный сигнал. Если не работал с инфраструктурой — освежи концепции до собеса.
Знание ClickHouse — большой плюс. Selectel известен большим использованием ClickHouse, на собесе будет deep dive. Опыт работы с MergeTree, материализованными представлениями, шардингом — мощный сигнал.
Weak vs strong на архитектурном кейсе. Слабый ответ: «возьмём Kafka + Spark Streaming для биллинга, чтобы было real-time». Сильный ответ: «биллинг требует консистентности и доказательной цепочки, а не скорости. Возьму Kafka для стрима событий использования ресурсов → ClickHouse с агрегацией через материализованные представления (PER_MINUTE → PER_HOUR → PER_DAY) → отдельный batch-pipeline в Airflow для формирования счетов через dbt с обязательными reconciliation-тестами против сырых событий. Свежие агрегаты в личный кабинет клиента идут через ClickHouse напрямую (real-time), но счёт формируется только после reconciliation».
Готовность к работе с SRE. DE-команда плотно работает с SRE-инженерами и службой эксплуатации. Кандидат, который говорит на их языке — мощный сигнал.
Прагматизм над хайпом. В Selectel ценят «давай попробуем ClickHouse», а не «возьмём Snowflake». Кандидат, который предлагает экзотический стек без обоснования, получит -1.
Как готовиться: план
За 4-6 недель до планируемого собеса:
- Неделя 1-2 — SQL deep dive с ClickHouse. Оконные функции, рекурсивные CTE, оптимизация запросов, partitioning, ClickHouse-специфика (MergeTree, материализованные представления, argMax, sequenceCount, runningAccumulate). Прорешай 30 SQL Medium-Hard задач + 15 ClickHouse-специфичных. Параллельно — на Карьернике обнови базу по SQL и Python: 1500+ задач, по 15-20 минут в день, чтобы за месяц закрыть пробелы по основным конструкциям.
- Неделя 3 — Стрим и observability stack. Kafka (topics, partitions, consumer groups, exactly-once), Debezium для CDC, Prometheus, ClickHouse как time-series store, базовые концепции SRE.
- Неделя 4 — Cloud и infra-контекст. Прочитай блоги Selectel, Yandex Cloud, AWS про DE для облаков. Запомни понятия: capacity planning, billing aggregation, SLA, SLO, error budget, observability.
- Неделя 5 — Архитектурные кейсы. Прорешай 5-6 кейсов: биллинг облака с точностью до минуты, телеметрия-pipeline миллиардов метрик, B2B-dashboards в личном кабинете, anomaly detection витрина, capacity planning DWH. Структура — требования → источники → транспорт → процессинг → витрина → reconciliation → SLA → recovery. Airflow patterns.
- Неделя 6 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с SRE, факап в проде, длинная миграция, история про точность биллинга.
Частые ошибки
Не знают ClickHouse. Selectel сильно его использует, на собесе будет deep dive. Если кандидат не знает разницу между MergeTree и ReplacingMergeTree — балл проседает.
Хайпуют стримингом везде. Кандидат проектирует биллинг как pure streaming. Не упоминает, что для финансовой отчётности важна reconciliation, а не скорость.
Не разбираются в инфра-метриках. «Что такое SLA, SLO, error budget, P99 latency?» — кандидат теряется. На архитектурном кейсе это сразу видно.
Игнорируют точность биллинга. Кандидат строит pipeline без reconciliation с сырыми событиями. В облаке расхождение в копейку — это претензия от клиента.
Не задают вопросы про SLA и объёмы. На кейсе сразу — стек, а не «сколько метрик в секунду, какие SLA, какой retention, какие источники». Это первый фильтр.
Связанные темы
- Собеседование на Data Engineer
- ClickHouse и OLAP
- Kafka streaming
- Собеседование на Data Scientist в Selectel
- Собеседование на ML Engineer в Selectel
FAQ
Удалёнка в Selectel для DE?
Гибрид с офисами в Москве и Санкт-Петербурге. Полная удалёнка возможна для отдельных позиций (senior+). Selectel известен прагматичным подходом к удалёнке.
Зарплатные вилки 2026?
Middle DE: 230-360k. Senior: 360-560k. Lead/Staff — выше, особенно в ClickHouse-направлениях и observability. Бонусная схема скромнее, чем в Тинькоффе или Яндексе, но процессы спокойнее.
Нужен ли английский?
Базовый — для документации и иногда международных клиентов. Свободного говорящего обычно не требуется.
Сколько этапов?
4-5 этапов, 3-5 недель от первого скрининга до оффера. Selectel славится быстрой обратной связью.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам.