Собеседование на Data Scientist в Циан
Содержание:
Почему Циан — особенный работодатель для DS
Циан — крупнейший российский сервис недвижимости. DS работает в специфическом домене PropTech: оценка стоимости квартир / домов (AVM), recommender объявлений, классификация мошеннических объявлений, NLP-парсинг текстов объявлений, гео-кластеризация.
Особенность: недвижимость — это редкие и высокоценные транзакции. Каждое объявление — уникальный объект с геолокацией, характеристиками, фотографиями. ML должен работать с разнородными данными: tabular + text + image + geo. Подробнее — на странице карьеры Циан.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Специфика:
- Был ли опыт с tabular / text / image ML
- Знание классического ML + базовый deep learning
- Понимание PropTech / маркетплейса
2. SQL и Python (60 минут)
SQL — middle. Python — pandas, sklearn, базовые pytorch/tensorflow.
3. ML-теория (60-90 минут)
- Classical ML: gradient boosting
- Метрики regression: MAE, MAPE, RMSE
- Recsys: коллаборативная + content-based
- NLP базовый: классификация объявлений, эмбеддинги
- Geo-кластеризация: DBSCAN, geohash
4. ML system design (60 минут)
«Спроектируй AVM (automated valuation model)», «recommender квартир для покупателя», «детекция мошеннических объявлений».
5. Поведенческое + финал
STAR + стратегический разговор.
Что Циан ценит в DS
- PropTech-domain. Понимание недвижимости (квартиры, кв.м, локация).
- Multi-modal ML. Tabular + text + geo одновременно.
- Recsys. Recommender в разреженных данных.
- NLP базовый. Классификация и парсинг объявлений.
- Pragmatism. Простая интерпретируемая AVM > сложный black-box.
Типичные задачи и кейсы
- «Спроектируй AVM для квартир: фичи, модель, метрика»
- «Recommender квартир для покупателя с историей просмотров»
- «Fraud / спам в объявлениях: классификация»
- «NLP-извлечение характеристик из текста объявления»
- «Гео-кластеризация районов: алгоритм и валидация»
Как готовиться: план
- Classical ML. Gradient boosting для regression.
- Recsys. Коллаборативная, content-based.
- NLP базовый. TF-IDF, эмбеддинги, классификация.
- Geo. Geohash, DBSCAN, distance.
- Метрики regression. MAE, MAPE, RMSE — когда что.
Частые ошибки
- Игнорировать локацию. В недвижимости location важнее всего.
- Recsys на холодных пользователях. Юзер заходит раз в год — нужны content-based методы.
- AVM без интерпретируемости. Цена квартиры — чувствительная тема, модель должна объяснять.
- NLP без domain. Объявления специфичны: «евроремонт», «ст/м», «свободная планировка».
Связанные темы
- Собеседование на DS в Avito
- Собеседование на DS в Я.Маркет
- Embeddings на собесе DS
- Как посчитать MAPE в SQL
- Anomaly detection на собесе DS
FAQ
Сколько этапов в собеседовании на DS в Циан?
Обычно 5: рекрутер → SQL/Python → ML-теория → ML system design → поведенческое + финал. Срок 4-5 недель.
Нужен ли опыт в PropTech?
Желателен. Релевантным считается маркетплейс с уникальными объектами (auto, e-com с big-ticket товарами).
Какой уровень SQL?
Уверенный middle.
Спрашивают ли computer vision?
В отдельных командах (классификация фото объявлений) — да.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.