Собеседование на Data Scientist в РЕСО
Содержание:
Почему РЕСО — особенный работодатель для DS
РЕСО — один из крупнейших российских страховщиков с фокусом на авто-страхование (КАСКО, ОСАГО), имущественное и медицинское страхование. Особенность для Data Scientist: страховой бизнес сочетает классическую актуарную математику с современным ML — модели рисков должны быть и точными, и интерпретируемыми (требования регулятора), а данных много и они структурированные. Это редкая ниша, где DS работает плотно с актуариями, юристами и продуктовыми менеджерами одновременно. Дополнительно — большой объём задач по антифроду в страховых выплатах, что делает РЕСО привлекательным работодателем для DS с интересом к security / fraud-аналитике.
ML-домены: pricing-моделирование (вероятность страхового случая, ожидаемая сумма убытка — основа премиум-расчёта), antifraud в claims (детекция накруток, инсценированных ДТП, медицинских мошенничеств), churn prediction для пролонгации полиса, customer LTV и cross-sell (предложить КАСКО клиенту с ОСАГО), персонализация продуктовых офферов, телематика для авто-страхования (анализ стиля вождения по данным с устройств), NLP на текстах claims и обращениях, оценка серьёзности повреждения по фото (CV-задачи). Стек: Python, scikit-learn, CatBoost / XGBoost, PyTorch для CV-задач, PostgreSQL, Greenplum, Airflow, MLflow, отдельная инфраструктура под актуарные модели.
Актуальные вакансии — на hh.ru и сайте РЕСО.
Информация основана на публичных источниках и опыте кандидатов. Команды РЕСО используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
Цикл 4–6 недель и включает 5–6 этапов. Процесс корпоративный, но менее формализованный, чем у крупных банков. Типичная схема — 2 технических, 1 продуктовый, 1 поведенческий.
1. HR-скрининг (30–45 минут)
Рекрутер проверяет: production-опыт DS (1.5+ года), причины смены работы, ожидания, интерес к страхованию. Опыт в финтехе, банковском скоринге, антифроде или регуляторно-чувствительных доменах — большой плюс. Питч 60–90 секунд: имя, основные проекты, бизнес-эффект.
2. Тестовое задание (3–7 дней)
Часто даётся: датасет с историей полисов и claims, нужно построить модель прогноза вероятности страхового случая или скоринга клиента. Сильные кандидаты обсуждают interpretability модели (важно для регулятора) и фокус на стабильности коэффициентов в разрезах сегментов.
3. ML / DS-теория (60–90 минут)
С senior DS из команды. Темы: классика (логистическая регрессия — особенно важна в страховании, бустинги, GAM, regularization), метрики бинарной классификации (precision/recall, Gini, KS), calibration (важно для перевода скоров в денежные коэффициенты), survival анализ для churn, причинно-следственный анализ. Доп. блок: знание основ актуарной математики (frequency × severity, GLM с разными распределениями — Poisson, Gamma, Tweedie) — приветствуется.
Подготовка: Классическая ML на собесе, Метрики модели.
4. Python + SQL live-coding (60–90 минут)
Live: 1 алгоритмическая задача (LeetCode Medium-Easy), 1–2 на pandas, 1–2 на SQL по страховым данным. SQL обычно классический: оконные функции, ratio-метрики, JOIN на полисах / claims / контрактах, сложные GROUP BY на временных периодах.
Подготовка: Live-coding, SQL-собес.
5. ML system design + бизнес-кейс (60–90 минут)
Кейсы: «как ты бы построил скоринг для КАСКО», «как обнаружить подозрительные claims», «как сегментировать клиентов для cross-sell от ОСАГО к КАСКО». Сильные ответы — где обсуждаются интерпретируемость, регуляторные ограничения, стабильность во времени.
Подготовка: ML system design.
6. Поведенческое + культурный fit (30–45 минут)
С тимлидом и менеджером. STAR-формат. РЕСО ценит DS, которые могут работать в кросс-функциональной команде (актуарии, юристы, продакты), и которые понимают регуляторную сторону страхового бизнеса.
Особенности по командам
Pricing & Underwriting ML. Главная команда: модели прогноза вероятности страхового случая, ожидаемой суммы убытка, формирование тарифной сетки. Тесная связка с актуариями. Главные челленджи: интерпретируемость, стабильность во времени, регуляторные ограничения на дискриминацию по чувствительным признакам. Подойдёт DS с background в banking-scoring или actuarial science.
Claims Antifraud. Уникальная и характерная для страхования команда: детекция накруток в страховых выплатах, инсценированных ДТП, медицинских мошенничеств, организованных группировок. Mix классики (бустинги, isolation forest), графовых подходов (поиск связей между участниками ДТП) и NLP (тексты заявлений). Подойдёт DS с background в anti-fraud в финтехе.
Churn & Retention. Прогноз отказа от пролонгации полиса, оптимизация retention-кампаний (когда позвонить клиенту, какой оффер предложить). Тесная связка с CRM-командой и колл-центром.
Customer LTV & Cross-Sell. Прогноз LTV клиента, propensity-to-buy для дополнительных полисов, оптимизация cross-sell кампаний. Mix classification + uplift-моделирования.
Telematics ML. Уникальная команда для авто-страхования: анализ стиля вождения по данным с телематических устройств, скоринг водителей в реальном времени, оптимизация тарифа под индивидуальный риск. Подойдёт DS с интересом к sensor data и time-series.
Claims Image / CV ML. Меньше команда: оценка серьёзности повреждения по фото из claims, automated triage, NLP на описаниях. Подойдёт DS с CV-background.
Marketing & Acquisition Analytics. Атрибуция маркетинговых каналов, прогноз ROI кампаний, скоринг лидов для конкретных продуктов (КАСКО, ДМС), оптимизация креативов. Тесная связка с маркетингом и performance-командой. Подойдёт DS с background в performance-маркетинге или banking-acquisition.
Reinsurance Analytics. Уникальная для крупных страховщиков команда: аналитика перестрахования, оценка собственного удержания vs передачи риска перестраховщику, моделирование catastrophic-рисков (events tail-распределения). Сложная задача с международным контекстом — часть работы идёт на английском.
Что РЕСО ценит в DS
Понимание актуарной природы данных. Слабый ответ: «обучил CatBoost, AUC 0.79». Сильный: «обучил CatBoost для прогноза вероятности страхового случая, валидация по времени и по гео, calibration через Platt-scaling для перевода скоров в premium-надбавки, в A/B на 25% контрактов за 90 дней корректно дифференцировал тариф; loss-ratio улучшилось на X%, без значимого снижения premium retention». Цифры обязательны.
Интерпретируемость. В страховании регулятор требует объяснимости моделей. Кандидат, обсуждающий SHAP, partial dependence plots, монотонные ограничения в бустингах — выделяется. Кандидат, делающий black-box без обсуждения интерпретации — серьёзный минус.
Стабильность во времени. Страховые модели работают годами. Drift-мониторинг, переобучение, fall-back-стратегии — обязательная часть.
Кросс-функциональная адекватность. Работа с актуариями и юристами — норма. Готовность объяснять модели и слушать ограничения — критично.
Опыт с регуляторно-чувствительными данными. Понимание ФЗ-152, недопустимости дискриминации по чувствительным признакам в моделях — must для middle+.
Как готовиться: план
Минимум 6–8 недель. Неделя 1–2: ML-теория (классика, бустинги, GLM-семейство, calibration). Неделя 3: LeetCode + pandas (40 задач). Неделя 4: SQL — оконки, ratio, retention. Неделя 5: actuarial basics (frequency-severity, Tweedie, monotone constraints). Неделя 6: A/B + interpretability (SHAP, PDP). Неделя 7: ML system design — отработай 4 кейса (pricing, antifraud, churn, telematics). Неделя 8: mock-интервью.
Для тренировки реальных вопросов с DS-собесов — открывай Карьерник: 1500+ задач по SQL, Python, A/B-тестам, статистике, продуктовой аналитике и ML по темам и сложности.
Частые ошибки
Первая — black-box модель без интерпретируемости. На вопрос «как объяснить регулятору, почему этот клиент платит больше» — нет правильного ответа без обсуждения SHAP, PDP, монотонных ограничений.
Вторая — игнорирование стабильности во времени. Strong-кандидат сразу обсуждает drift-мониторинг и план переобучения. Weak — фокусируется только на голой метрике на тестовой выборке.
Третья — слабое понимание actuarial-стороны. Frequency × Severity — основа всего pricing, и кандидат, который не различает эти компоненты, выглядит сыро.
Четвёртая — нет цифр в бизнес-эффекте. На вопрос про самый успешный проект сильный ответ — с конкретным улучшением loss-ratio или premium-retention.
Пятая — попытка перенести подходы из e-commerce без учёта страховой специфики. Премия — это не покупка, а контракт на год с ежегодным circulation; модели должны это учитывать.
Связанные темы
- Собеседование на Data Scientist в Согласии
- Собеседование на Data Scientist в Альфа-Банке
- Собеседование на ML Engineer в РЕСО
- Собеседование на Data Scientist — гайд
FAQ
Сколько этапов в собесе DS в РЕСО?
5–6 этапов: HR-скрининг, тестовое задание, ML / DS-теория, Python + SQL live-coding, ML system design + бизнес-кейс, поведенческое. Цикл — 4–6 недель.
Нужен ли опыт в страховании?
Желателен, но не обязателен. Сильный опыт в banking-scoring, антифроде или регуляторно-чувствительных доменах подходит. Готовность учить actuarial basics до собеса — must.
Сложно ли DS-собеседование в страховании?
Технически — средняя сложность. Главная сложность — интерпретируемость и работа с регуляторными ограничениями. Если у тебя сильный ML-фундамент, но нет страхового опыта — выделите 1–2 недели на изучение GLM-семейства, Tweedie, frequency-severity.
Какой английский нужен?
B1–B2 минимум. Внутренние коммуникации в основном на русском. Документация — двуязычная.
Сколько платят DS в РЕСО?
Зависит от грейда. Для middle DS — на уровне крупных банков (Тинькофф / Альфа), для senior — выше. Pricing / Underwriting и Antifraud команды обычно платят выше из-за специфики и редкости экспертизы.
Какие книги/курсы посмотреть до собеса?
По actuarial-стороне: Klugman «Loss Models», Frees «Regression Modeling with Actuarial and Financial Applications». По интерпретируемости: Christoph Molnar «Interpretable Machine Learning». По A/B в страховании: статьи KaggleX и Allianz по pricing-экспериментам.
Берут ли DS без опыта в страховании?
Берут, если сильный фундамент и опыт работы с регуляторно-чувствительными моделями (банковский скоринг, антифрод). Готовность учить actuarial basics до собеса — must.