Собеседование на Data Engineer в МТС

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему МТС — особенный работодатель для DE

МТС — крупный российский телеком + digital-экосистема (КИОН, МТС Банк, МТС Premium). DE работает на стыке двух миров: классические телеком-данные (CDR, биллинг, локационные данные, петабайты в Hadoop) и современные digital-стэки (Spark Streaming, ClickHouse для аналитики, dbt для трансформаций).

Особенность: телеком-данные имеют свой профиль — длинные временные ряды, событийные потоки в реальном времени, чувствительные к privacy и regulator. Помимо ETL DE отвечает за data quality, мониторинг, дешёвую инфраструктуру для аналитики. Подробнее — на странице карьеры МТС.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация. Специфика МТС:

  • Был ли опыт с big data / streaming
  • Знание SQL deep + Python
  • Готовность работать с телеком-данными (huge volumes)

2. SQL и Python (60 минут)

SQL — оконки, оптимизация, EXPLAIN, partitioning. Python — pandas, общие алгоритмы.

3. Big Data + Spark (60-90 минут)

Главный этап. Spark глубоко: RDD, DataFrame, optimizer, shuffle, skew, broadcast joins.

4. Streaming + ClickHouse / Greenplum (45-60 минут)

Kafka, Spark Streaming. ClickHouse для аналитики реального времени. Greenplum для исторических данных.

5. Архитектура (60 минут)

«Спроектируй pipeline для real-time биллинга», «backfill стратегия для месячных данных», «star schema vs Data Vault для DWH».

6. Поведенческое + финал

STAR-вопросы + стратегический разговор.

Что МТС ценит в DE

  • Big data навыки. Spark, Hadoop, Kafka.
  • Streaming-опыт. Spark Streaming, Flink базовое.
  • Performance tuning. Оптимизация Spark job на десятки TB.
  • DWH-архитектура. Star schema, SCD.
  • Compliance-aware. 152-ФЗ, телеком-регулирование (закон о связи, СОРМ).

Типичные задачи и кейсы

  • «Spark job обрабатывает CDR (call detail records) за день — 2 TB. Оптимизация»
  • «Skewed key (один абонент даёт 10% событий). План решения»
  • «Real-time биллинг pipeline: Kafka → Spark Streaming → ClickHouse. Архитектура»
  • «Хранить CDR за 5 лет: где, как, по какой стоимости»
  • «Витрина churn-prediction нужна с задержкой 1 час. Спроектируй»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. Spark deep. RDD vs DataFrame, optimizer, shuffle, partitioning, skew, broadcast joins.
  2. Streaming. Kafka + Spark Streaming, exactly-once, checkpointing.
  3. ClickHouse. Партиционирование, materialized views, типы движков (MergeTree, ReplicatedMergeTree).
  4. DWH. Star schema, SCD, Data Vault.
  5. SQL deep. Оконки, EXPLAIN, оптимизация.
  6. Compliance. Базовый ликбез по 152-ФЗ и телеком-регулированию.

Частые ошибки

  • Знать Spark поверхностно. «Spark быстрее Hadoop» — слабый ответ. Дайте конкретное про DAG, optimizer, partitions.
  • Игнорировать streaming. В телекоме данные приходят непрерывно. Без понимания Kafka / Streaming — нерелевантный кандидат.
  • Слабая SQL. Уровень senior.
  • Не уметь читать EXPLAIN. Оптимизация = гадание без EXPLAIN.

Связанные темы

FAQ

Сколько этапов в собеседовании на DE в МТС?

Обычно 5-6: рекрутер → SQL/Python → big data → streaming/ClickHouse → архитектура → поведенческое + финал. Срок 4-6 недель.

Нужен ли опыт в телекоме?

Желателен для core-команд. Для digital (КИОН, МТС Premium) — релевантным считается опыт e-com / SaaS.

Какие инструменты главные?

Spark + Hadoop + Kafka + ClickHouse / Greenplum + Airflow.

Спрашивают ли streaming?

Да, особенно для real-time-команд.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.