Собеседование на Data Engineer в Авито
Содержание:
Почему Авито — особенный работодатель для DE
Авито — крупнейшая classifieds-площадка РФ: сотни миллионов объявлений, миллиарды событий в день. Стек: Hadoop / ClickHouse / Vertica / Airflow / Kafka. В командах активно используется Tornado / Python / Go. ML-направление — search ranking, рекомендации, антифрод, dynamic pricing объявлений.
DE в Авито работает на high-load. Объёмы данных растут постоянно, требуется грамотная архитектура (партиционирование, агрегации, materialized views). Актуальные вакансии — на career.avito.ru.
Информация основана на публичных источниках и опыте кандидатов. Команды Авито используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
1. HR-скрининг (30-45 минут)
Знакомство:
- Стек: ClickHouse / Vertica / Hadoop / Spark
- Объёмы данных, типы pipelines
- Motivation: classifieds / marketplace
Питч 90 секунд: продукт, объёмы, инструменты, impact.
2. SQL deep (60-90 минут)
В Авито DE пишет много SQL. Глубина обязательна.
Темы:
- Window functions, CTE, рекурсия
- ClickHouse-specific: MergeTree, materialized views, dictionaries
- Vertica-specific: projections, segmentation
- Оптимизация EXPLAIN
Подготовка: SQL для DE, SQL-тренажёр.
3. Python + Spark (60-90 минут)
PySpark для batch, иногда Hadoop / Hive.
- DataFrame API
- Partitioning, shuffles, broadcast
- Memory tuning
Подготовка: Spark deep dive.
4. System design (60-90 минут)
Кейсы:
- Pipeline для рекомендаций объявлений
- Real-time антифрод
- ClickHouse vs Vertica — когда что
- Search index pipeline
Подготовка: data modeling, ClickHouse и OLAP.
5. Поведенческое + командное (45-60 минут)
STAR: high-load инциденты, кросс-командные проекты, missed deadlines.
Особенности по командам
Search & Ranking: ClickHouse + ML pipelines, ranking features.
Recommendations: feature store, embeddings.
Антифрод: real-time Kafka streaming, ML inference.
B2B / Pro Sellers: аналитика для продавцов.
Marketplace Core: объявления, категории, модерация.
Что Авито ценит в DE
- SQL уверенно. ClickHouse + Vertica — один из must.
- Spark. Базовый стек.
- Domain understanding. Classifieds — специфика модерации, search, фрода.
- Reliability. На high-load downtime критичен.
- Communication. Cross-team: ML, продукт, антифрод.
Как готовиться: план
За 4-6 недель:
- Неделя 1-2 — SQL + ClickHouse. Window, MergeTree, materialized. SQL для DE, ClickHouse.
- Неделя 3 — Spark + Python. PySpark, joins, shuffle. Spark deep dive.
- Неделя 4 — System design. Marketplace pipelines. Kafka, CDC.
- Неделя 5 — dbt + monitoring. dbt, мониторинг.
- Неделя 6 — Mocks + behavioral.
Частые ошибки
- Слабый ClickHouse. В Авито CH-heavy, без знания — провал.
- Vertica «не нужен». В части команд используется, спросят.
- Spark поверхностно. Без shuffle / partitioning — не пройдёшь.
- Игнор classifieds домена. «Просто данные» — не покажешь экспертизу.
- Без monitoring / SLO опыта. High-load — приоритет.
Связанные темы
- Собеседование на Data Engineer
- SQL для DE
- Spark deep dive
- ClickHouse и OLAP
- dbt и моделирование
- Мониторинг и data quality
FAQ
Удалёнка в Авито для DE?
Гибрид часто. Полная — для senior возможно.
Зарплатные вилки 2026?
Middle DE: 240-370k. Senior: 370-560k.
Английский нужен?
Базовый — желательно.
Сколько этапов?
4-5 этапов, 2-3 недели.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.