Собеседование на Data Engineer в Mindbox

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Mindbox — особенный работодатель для DE

Mindbox — крупнейшая российская CDP (Customer Data Platform) и marketing automation: десятки крупных клиентов из retail, e-com, банков и сервисов, миллиарды событий в день, продуктовые модули по сегментации, рекомендациям, RFM, триггерным рассылкам. Для Data Engineer это работа в высоконагруженной event-инфраструктуре: ClickHouse как основной аналитический DWH (Mindbox известен большим использованием CH), multi-tenant архитектура, real-time-агрегаты, CDC с десятков систем клиентов.

Главные DE-домены: построение event-pipeline (миллиарды customer events в день — клики, покупки, корзины, IAP, email-открытия); multi-tenant DWH (отделение данных клиентов друг от друга, fairness в распределении ресурсов); CDC из систем клиентов (1С-Битрикс, Shopify, кастомные ERP); pipeline для рекомендаций и RFM-сегментации; pipeline для real-time agregates (next-best-action, send-time optimization); pipeline для биллинга (расход клиентов по тарифам).

Стек: ClickHouse (основной DWH, активное использование MergeTree, материализованных представлений, projections); PostgreSQL для operational data; Kafka для event-ingestion; Airflow + dbt + Spark; data lake на S3-compatible. Команда DE плотно работает с продуктовыми и инфраструктурными командами.

Актуальные вакансии — на hh.ru и сайте Mindbox.

Информация основана на публичных источниках и опыте кандидатов. Команды Mindbox используют разные процессы — формат и этапы зависят от направления, уточняйте у рекрутера.

Этапы собеседования

Полный цикл — 3-5 недель, 4-5 этапов. Процесс быстрый и продуктовый: HR, техническое интервью, кодинг и SQL, продуктово-архитектурный кейс, финал.

1. HR-скрининг (30-45 минут)

Рекрутер уточняет: production-опыт DE (от 1.5-2 лет, желательно с event-DWH или SaaS-контекстом), знание ClickHouse и Kafka, мотивацию идти в Mindbox, ожидания по компенсации и формату (Москва, гибрид и удалёнка). Готовь питч на 90 секунд про самый зрелый production-pipeline с цифрами по объёмам.

2. Техническое интервью / SQL и архитектура (60-90 минут)

Базовая секция с senior DE из команды. Темы: SQL deep dive (оконные функции, оптимизация на event-данных, ClickHouse-специфика — MergeTree, материализованные представления, sequenceCount, retention, argMax), модели данных (event-схемы, измерения customer, session), batch vs streaming, CDC (Debezium), data quality (тесты в dbt). Специфический вопрос: «как ты бы построил multi-tenant event-DWH на 5 миллиардов событий в день с гарантией fairness между клиентами».

Подготовка: SQL для DE, ClickHouse и OLAP, Kafka streaming.

3. Python + SQL live coding (60-90 минут)

Задачи прагматичные: 1-2 на SQL (оконки, JOIN, оптимизация — часто на event-данных), 1-2 на Python (pandas, простые ETL, обработка JSON-payload). Часто живой кейс: «дам тебе таблицу событий клиента CDP, посчитай retention D1/D7/D30 по cohort и сегменту». Готовиться: 30-50 SQL Medium-Hard задач + 20 простых на Python. ClickHouse-специфика — большой плюс.

Подготовка: SQL для DE.

4. Продуктово-архитектурный кейс (60-90 минут)

Самая характерная секция. Кейс архитектурный: «спроектируй multi-tenant event-DWH с гарантией изоляции клиентов», «как ты бы построил CDC из 1С-Битрикс и Shopify в Mindbox с гарантией consistency», «как сделать real-time агрегаты для next-best-action на 100К запросов в секунду». Нужно: уточнить требования, описать архитектуру, выбрать стек, продумать data quality и мониторинг, обсудить trade-off, заложить план рекавери. Сильный сигнал — учёт multi-tenant специфики и fairness.

Подготовка: Airflow patterns, ClickHouse и OLAP.

5. Финал с тимлидом / руководителем направления (45 минут)

Беседа с тимлидом, грейд, оффер.

Особенности по командам

Event-pipeline и core platform. Команда строит event-pipeline для всех клиентов: ingestion, валидация, обогащение, маршрутизация в DWH. Стек — Kafka + ClickHouse + кастомные сервисы. Челлендж — миллиарды событий в день, multi-tenant fairness, schema-evolution. Подойдёт DE с background в high-throughput event-DWH.

CDC и интеграции с системами клиентов. Команда работает с интеграциями e-com платформ, CRM, ERP клиентов. Стек — Debezium + Kafka + кастомные коннекторы. Челлендж — разные API клиентов, миграции, обратная совместимость. Подойдёт DE с интересом к интеграционным проектам.

Recsys и RFM-инфраструктура. Команда строит pipeline для рекомендаций и RFM-сегментации. Стек — Spark + ClickHouse + ML-сервисы. Подойдёт DE с background в recsys или ML-инфраструктуре.

Real-time агрегаты. Команда строит инфраструктуру для next-best-action, send-time-optimization, persona ranking. Стек — Kafka Streams + ClickHouse + кастомные real-time сервисы. Челлендж — sub-second latency на 100К+ requests per second. Подойдёт DE с background в streaming.

Биллинг и финансовое DWH. Команда отвечает за биллинг клиентов Mindbox по тарифам: events, segments, profiles. Стек — Greenplum + Airflow + dbt + интеграция с финансовой системой. Подойдёт DE с financial-DWH опытом.

Что Mindbox ценит в DE

Production-опыт на event-данных. История про pipeline в проде на миллиардах событий в день. «Запустил event-DWH на 5B событий в день с T+1 SLA и 99.95% доступностью» — это история.

Знание ClickHouse — большой плюс. Mindbox известен активным использованием ClickHouse. Опыт с MergeTree, материализованными представлениями, sequenceCount, retention — мощный сигнал.

Понимание CDP и marketing-метрик. Что такое RFM, omnichannel, attribution, customer journey, segment — базовый словарь.

Weak vs strong на архитектурном кейсе. Слабый ответ: «возьмём ClickHouse для multi-tenant event-DWH с tenant_id как partition key». Сильный ответ: «multi-tenant на ClickHouse — это не просто partition key. Архитектура: events приходят в Kafka с partition по client_id; consumer пишет в ClickHouse в shared таблицу с RLS (row-level security) по tenant_id и quota по compute resources (per-tenant query limits). Для крупных клиентов — отдельные replication setup для изоляции нагрузки. Fairness: rate limiting на запись (per-tenant Kafka partition quotas) и на чтение (per-tenant query cost). Schema-evolution через схема-registry с гарантией обратной совместимости. Для real-time агрегатов — материализованные представления с TTL для свежих агрегатов клиенту».

Готовность к быстрому темпу. Mindbox любит быстрые продуктовые релизы.

Self-management. Команды компактные.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

За 4-6 недель до планируемого собеса:

  1. Неделя 1-2 — SQL deep dive и ClickHouse. Оконные функции, рекурсивные CTE, оптимизация на event-таблицах, ClickHouse-специфика (MergeTree, материализованные представления, sequenceCount, retention, argMax). Прорешай 30 SQL Medium-Hard задач + 15 ClickHouse-специфичных. Параллельно — на Карьернике обнови базу по SQL и Python: 1500+ задач, по 15-20 минут в день, чтобы за месяц закрыть пробелы.
  2. Неделя 3 — Стрим и event-stack. Kafka (topics, partitions, consumer groups, exactly-once), Debezium для CDC, schema-evolution, обработка JSON-payload событий.
  3. Неделя 4 — CDP и marketing контекст. Прочитай блог Mindbox, статьи Segment.io, Braze, Klaviyo про CDP-архитектуру. Запомни понятия: CDP, RFM, triggered campaign, omnichannel, customer journey, attribution.
  4. Неделя 5 — Архитектурные кейсы. Прорешай 5-6 кейсов: multi-tenant event-DWH, CDC из e-com платформы, real-time агрегаты для next-best-action, RFM-pipeline, биллинг multi-tenant. Структура — требования → источники → транспорт → процессинг → витрина → SLA → recovery. Airflow patterns.
  5. Неделя 6 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с продуктовой командой, факап в проде, длинная миграция API, история про оптимизацию ClickHouse.

Частые ошибки

Не знают ClickHouse. В Mindbox это базовый стек. Если кандидат не знает MergeTree и материализованные представления — балл проседает.

Не думают про multi-tenant fairness. Кандидат на System Design рисует «всё для одного клиента». В Mindbox SaaS на десятки клиентов — fairness в compute и storage обязателен.

Хайпуют streaming pure-model. Кандидат предлагает event-DWH как pure streaming. Не упоминает, что для retention нужны batch-расчёты по cohorts.

Игнорируют schema-evolution. В CDP клиенты добавляют новые типы событий регулярно. Кандидат, который этого не упоминает — теряет балл.

Не задают вопросы про объёмы и SLA. На кейсе сразу — стек, а не «сколько событий в секунду, какие SLA, какой retention». Это первый фильтр.

Связанные темы

FAQ

Удалёнка в Mindbox для DE?

Гибрид с офисом в Москве, есть удалёнка для отдельных позиций (особенно senior+). Mindbox исторически лояльно относится к удалёнке.

Зарплатные вилки 2026?

Middle DE: 230-360k. Senior: 360-560k. Lead — выше, особенно в ClickHouse-направлениях. Бонусная схема скромнее, чем у Тинькоффа/Яндекса.

Нужен ли английский?

Базовый — для документации. Свободного говорящего не требуется.

Сколько этапов?

4-5 этапов, 3-5 недель. Mindbox известен быстрой обратной связью.

Реально ли пройти без CDP-опыта?

Реально на middle-позицию, если есть опыт с event-DWH или ClickHouse. CDP-словарь подучить можно за 1-2 недели.

Какие книги и ресурсы помогут подготовиться?

«Designing Data-Intensive Applications» Мартина Клеппманна, документация ClickHouse, статьи про CDP от Segment.io, Mindbox tech blog. По SQL — задачник Карьерника.

Что подчеркнуть на финале в Mindbox?

Опыт работы с event-DWH на масштабе, понимание multi-tenant fairness, готовность к быстрым продуктовым релизам. История про оптимизацию ClickHouse-pipeline или работу с CDP-данными — сильный плюс.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам.