Собеседование на Data Engineer в МТС
Содержание:
Почему МТС — особенный работодатель для DE
МТС — крупный российский телеком + digital-экосистема (КИОН, МТС Банк, МТС Premium). DE работает на стыке двух миров: классические телеком-данные (CDR, биллинг, локационные данные, петабайты в Hadoop) и современные digital-стэки (Spark Streaming, ClickHouse для аналитики, dbt для трансформаций).
Особенность: телеком-данные имеют свой профиль — длинные временные ряды, событийные потоки в реальном времени, чувствительные к privacy и regulator. Помимо ETL DE отвечает за data quality, мониторинг, дешёвую инфраструктуру для аналитики. Подробнее — на странице карьеры МТС.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Специфика МТС:
- Был ли опыт с big data / streaming
- Знание SQL deep + Python
- Готовность работать с телеком-данными (huge volumes)
2. SQL и Python (60 минут)
SQL — оконки, оптимизация, EXPLAIN, partitioning. Python — pandas, общие алгоритмы.
3. Big Data + Spark (60-90 минут)
Главный этап. Spark глубоко: RDD, DataFrame, optimizer, shuffle, skew, broadcast joins.
4. Streaming + ClickHouse / Greenplum (45-60 минут)
Kafka, Spark Streaming. ClickHouse для аналитики реального времени. Greenplum для исторических данных.
5. Архитектура (60 минут)
«Спроектируй pipeline для real-time биллинга», «backfill стратегия для месячных данных», «star schema vs Data Vault для DWH».
6. Поведенческое + финал
STAR-вопросы + стратегический разговор.
Что МТС ценит в DE
- Big data навыки. Spark, Hadoop, Kafka.
- Streaming-опыт. Spark Streaming, Flink базовое.
- Performance tuning. Оптимизация Spark job на десятки TB.
- DWH-архитектура. Star schema, SCD.
- Compliance-aware. 152-ФЗ, телеком-регулирование (закон о связи, СОРМ).
Типичные задачи и кейсы
- «Spark job обрабатывает CDR (call detail records) за день — 2 TB. Оптимизация»
- «Skewed key (один абонент даёт 10% событий). План решения»
- «Real-time биллинг pipeline: Kafka → Spark Streaming → ClickHouse. Архитектура»
- «Хранить CDR за 5 лет: где, как, по какой стоимости»
- «Витрина churn-prediction нужна с задержкой 1 час. Спроектируй»
Как готовиться: план
- Spark deep. RDD vs DataFrame, optimizer, shuffle, partitioning, skew, broadcast joins.
- Streaming. Kafka + Spark Streaming, exactly-once, checkpointing.
- ClickHouse. Партиционирование, materialized views, типы движков (MergeTree, ReplicatedMergeTree).
- DWH. Star schema, SCD, Data Vault.
- SQL deep. Оконки, EXPLAIN, оптимизация.
- Compliance. Базовый ликбез по 152-ФЗ и телеком-регулированию.
Частые ошибки
- Знать Spark поверхностно. «Spark быстрее Hadoop» — слабый ответ. Дайте конкретное про DAG, optimizer, partitions.
- Игнорировать streaming. В телекоме данные приходят непрерывно. Без понимания Kafka / Streaming — нерелевантный кандидат.
- Слабая SQL. Уровень senior.
- Не уметь читать EXPLAIN. Оптимизация = гадание без EXPLAIN.
Связанные темы
- Собеседование на DE в Яндекс
- Собеседование на DE в Т-Банке
- Spark на собесе DE
- ClickHouse и OLAP
- Собеседование на DS в МТС
FAQ
Сколько этапов в собеседовании на DE в МТС?
Обычно 5-6: рекрутер → SQL/Python → big data → streaming/ClickHouse → архитектура → поведенческое + финал. Срок 4-6 недель.
Нужен ли опыт в телекоме?
Желателен для core-команд. Для digital (КИОН, МТС Premium) — релевантным считается опыт e-com / SaaS.
Какие инструменты главные?
Spark + Hadoop + Kafka + ClickHouse / Greenplum + Airflow.
Спрашивают ли streaming?
Да, особенно для real-time-команд.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.