Собеседование на Data Engineer в Wildberries
Содержание:
Почему Wildberries — особенный работодатель для DE
Wildberries — крупнейший маркетплейс России, миллиарды событий в день. DE-команды обслуживают: аналитические витрины (для аналитиков и PM), ML-pipeline (для DS), real-time дашборды (для операционных команд), интеграции с логистикой и финансами. Стек: Spark, Airflow, Kafka, ClickHouse, S3-совместимое хранилище, lakehouse-подходы.
Особенность: двухсторонний маркетплейс с большой logistics-составляющей. Pipeline-ы должны обслуживать данные buyer-ов, seller-ов, заказов, ПВЗ, доставки. Late-arriving события из логистики — обычное дело. Актуальные вакансии — на странице карьеры WB.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Особенности WB:
- Опыт с большими объёмами данных и маркетплейсами
- Знание Spark, Kafka, Airflow
- В какое направление интересно (рекомендации / логистика / финансы)
2. SQL и Python (60 минут)
Live-coding SQL на маркетплейс-данных: воронки, retention, RFM. Python — pandas, базовый ETL.
3. Инструменты и архитектура (60-90 минут)
Темы:
- Spark optimization (Catalyst, shuffle, broadcast)
- Kafka (partitions, exactly-once, consumer groups)
- ClickHouse (MergeTree, ReplacingMergeTree для CDC)
- Airflow (idempotent DAG-и, backfill, sensors)
- Lakehouse (Iceberg / Delta)
Подготовка: DE hub, Spark deep dive.
4. Data modeling (45-60 минут)
«Спроектируй DWH для маркетплейса», «как хранить временные ряды событий на масштабе 10B/день».
5. System design (60-90 минут)
«Спроектируй real-time pipeline для рекомендаций», «как обработать late-arriving из логистики».
6. Поведенческое (45 минут)
STAR-вопросы.
7. Финал с лидом
Стратегический разговор.
Что Wildberries ценит в DE
- Spark + Kafka на масштабе. Миллиарды событий — обязательно
- Маркетплейс-контекст. Buyer-side + seller-side + logistics
- Operational excellence. Pipelines должны быть надёжными
- Data quality. Корректность данных критична для аналитиков и DS
- Скорость работы. Релизы недельные
Типичные задачи и кейсы
- «Spark job на 1TB логов работает 4 часа. Сократи до 1 часа»
- «Late events из ПВЗ приходят с задержкой до 7 дней. Как обновлять метрики корректно?»
- «Спроектируй pipeline для real-time дашборда заказов»
- «Как обеспечить exactly-once в Kafka pipeline с финансовыми событиями?»
- «У нас сотни DAG-ов. Как обеспечить data quality и SLA?»
Как готовиться: план
- SQL глубоко. Маркетплейс-метрики. SQL для DE.
- Spark. «Spark: The Definitive Guide» + practical tuning. Spark deep dive.
- Kafka. Книга + понимание exactly-once. Kafka streaming.
- ClickHouse. Документация + practice. ClickHouse и OLAP.
- Distributed systems. «Designing Data-Intensive Applications» (Kleppmann).
- STAR-истории. 6-8 готовых сценариев.
Частые ошибки
- Игнорировать late events. В логистике это норма, обработка обязательна
- Зубрить инструменты без понимания. «Я делал DAG-и» — мало
- Слабый SQL. В маркетплейсе много данных
- Не учитывать seller-side. Pipeline-ы для продавцов — отдельная сложность
- Игнорировать cost. Spark cluster — это деньги
Связанные темы
- Собеседование на Data Engineer
- Собеседование на DE в Ozon
- Собеседование на DE в Avito
- Apache Spark на собесе DE
- Kafka на собесе DE
FAQ
Сколько этапов в собеседовании на DE в WB?
Обычно 5-7: рекрутер → SQL → инструменты → data modeling → system design → поведенческое → финал. Срок 3-5 недель.
Нужен ли опыт с маркетплейсами?
Желателен. Если из других доменов — упор на distributed systems.
Какие инструменты обязательны?
SQL, Python, Spark — must. Kafka, Airflow — сильно желательно.
Спрашивают ли алгоритмы?
Базовые. LeetCode Easy/Medium.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.