Собеседование на Data Engineer в Авито
Содержание:
Почему Авито — особенный работодатель для DE
Авито — крупнейший в России классифайд с десятками вертикалей (авто, недвижимость, работа, услуги). DE здесь работает с трёхсторонним рынком: пользователи (покупатели), продавцы, рекламодатели. Стек: Spark, Kafka, ClickHouse, Airflow, S3-совместимое хранилище.
Особенность: классифайд — двухсторонний рынок с длинным циклом сделки. DE-pipeline-ы обслуживают разные потребители: команды поиска, ранжирования, монетизации, антифрод. У Авито сильная аналитическая культура — DE здесь часто плотно работает с DS и продуктовыми аналитиками. Актуальные вакансии — на странице карьеры Авито.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Особенности Авито:
- Опыт с большими объёмами данных
- Знание Spark, Kafka, Airflow
- В какое направление интересно (рекомендации / монетизация / fraud / логистика)
2. SQL deep dive (60 минут)
Live-coding SQL на классифайд-данных: воронки контактов (просмотр → клик → звонок → сделка), retention объявлений, retention пользователей, ARPU рекламодателей. Подробнее — SQL на собесе.
3. Инструменты и архитектура (60-90 минут)
Темы:
- Spark: optimization, partitioning, broadcast joins, shuffle
- Kafka: partitions, retention, exactly-once
- ClickHouse: MergeTree, replicated tables, materialized views
- Airflow / Dagster: DAG-design, retry, idempotence
Подготовка: DE hub, Spark на собесе, Kafka на собесе.
4. Data modeling (45 минут)
«Спроектируй DWH для рекламной платформы», «как хранить historical view объявлений».
5. System design (60 минут)
«Спроектируй pipeline для real-time антифрода», «как обработать поток модерации объявлений».
6. Поведенческое (45 минут)
STAR-вопросы. Авито ценит самостоятельность и инициативу.
7. Финал с лидом DE
Стратегический разговор.
Что Авито ценит в DE
- Опыт со Spark / Kafka. Большие объёмы — обязательно
- Понимание классифайд-домена. Двухсторонний рынок + реклама + длинный цикл сделки
- Скорость работы. Плоская структура, ожидается самостоятельность
- Хорошая алгоритмика. На live-coding LeetCode Medium регулярно
- Distributed systems. Понимание consistency, replication, partitioning
Типичные задачи и кейсы
- «Spark job на партиционированной таблице падает с OOM. Гипотезы?»
- «Late events из колл-центра приходят за неделю. Как обновлять funnel-метрики?»
- «Спроектируй pipeline для real-time anti-fraud (детекция фейковых объявлений)»
- «У нас 1B событий в день. Какую партиционную стратегию выбрать?»
- «Как обеспечить exactly-once в Kafka pipeline с финансовыми событиями?»
Как готовиться: план
- SQL до автоматизма. Метрики классифайда: контакты, успешные сделки, retention объявлений и пользователей. SQL-раздел.
- Spark. «Spark: The Definitive Guide» + practical tuning через pet-project.
- Kafka. Книга + понимание exactly-once, partitioning, consumer groups.
- ClickHouse. Документация + practice.
- Distributed systems. «Designing Data-Intensive Applications» (Kleppmann).
- Алгоритмика. LeetCode Easy/Medium 50-100 задач.
Частые ошибки
- Знать инструменты, не принципы. «Я работал со Spark» — мало. Объясни, почему shuffle медленный
- Игнорировать data quality. В классифайде объявления модерируются — DE-pipeline должен учитывать это
- Не учитывать рекламную составляющую. Авито зарабатывает на рекламе, эти данные — отдельный сложный pipeline
- Слабая алгоритмика. Регулярно спрашивают LeetCode Medium на live-coding
- Игнорировать масштабирование. Решение для 1M юзеров не подходит для 100M
Связанные темы
- Собеседование на Data Engineer
- Собеседование на DE в Ozon
- Собеседование на DE в Яндексе
- Apache Spark на собесе DE
- Kafka на собесе DE
FAQ
Сколько этапов в собеседовании на DE в Авито?
Обычно 5-7: рекрутер → SQL → инструменты → data modeling → system design → поведенческое → финал. Срок 3-5 недель.
Нужен ли опыт в классифайдах?
Не обязателен. Релевантен опыт с двухсторонними рынками — маркетплейсами, p2p-сервисами.
Какие инструменты обязательны?
SQL, Python, Spark — must. Airflow, Kafka — сильно желательно.
Спрашивают ли алгоритмы на собесе?
Да, активно. LeetCode Easy/Medium на live-coding.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.