Собеседование на Data Scientist в Ингосстрахе

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Ингосстрах — особенный работодатель для DS

Ингосстрах — один из крупнейших и старейших российских страховщиков, исторически сильный в авто-страховании (особенно КАСКО), имущественном и медицинском страховании, страховании грузов и финансовых рисков. Компания активно инвестирует в digital-направление и data-driven процессы, что делает её привлекательным работодателем для Data Scientist. Уникальная специфика — сильный телематический проект для авто-страхования: масштабная база данных по стилю вождения, что даёт DS возможность работать с интересными time-series и behavioral задачами.

ML-домены: pricing-моделирование (frequency × severity), antifraud в claims (Ингосстрах исторически вкладывается в анти-фрод), churn prediction, customer LTV и cross-sell, телематика для авто-страхования (анализ стиля вождения, скоринг водителей в реальном времени, оптимизация UBI-тарифов), NLP на claims и обращениях, CV для оценки повреждений по фото, корпоративная риск-аналитика. Стек: Python, scikit-learn, CatBoost / XGBoost, PyTorch для NLP/CV, time-series-библиотеки для телематики, PostgreSQL, ClickHouse для аналитики, Airflow, MLflow.

Актуальные вакансии — на hh.ru и сайте Ингосстраха.

Информация основана на публичных источниках и опыте кандидатов. Команды Ингосстраха используют разные процессы — уточняйте у рекрутера.

Этапы собеседования

Цикл 4–6 недель и включает 5–7 этапов. Процесс структурированный, ближе к большим банкам и страховщикам, чем к компактным digital-страховщикам.

1. HR-скрининг (30–45 минут)

Рекрутер проверяет: production-опыт DS (1.5+ года), причины смены работы, ожидания. Опыт в финтехе, банковском скоринге, антифроде, страховании или работе с time-series — большой плюс. Питч 60–90 секунд.

2. Тестовое задание (3–7 дней)

Часто даётся: датасет с историей полисов и claims, нужно построить модель прогноза страхового случая или скоринг водителя. Сильные кандидаты выбирают подход с балансом точности и интерпретируемости, делают честную time-based валидацию и интерпретируют результат бизнес-смыслом.

3. ML / DS-теория (60–90 минут)

С senior DS из команды. Темы: классика (логистическая регрессия, GLM, бустинги, regularization, calibration), метрики бинарной классификации, survival для churn, основы actuarial math (frequency × severity, Tweedie, monotone constraints), причинно-следственный анализ. Доп. блок для телематики — time-series и behavioral analytics.

Подготовка: Классическая ML на собесе, Time series на собесе.

4. Python + SQL live-coding (60–90 минут)

Live: 1 алгоритмическая задача (LeetCode Medium), 1–2 на pandas, 1–2 на SQL. SQL обычно на ClickHouse / PostgreSQL — оконные функции, ratio, JOIN на больших объёмах телематических данных. Готовиться плотно: телематика даёт большие объёмы time-series.

Подготовка: Live-coding, SQL-собес.

5. A/B и эксперименты (60 минут)

Спрашивают: дизайн, sample size, MDE, ratio, peeking, anlysis на коротком тесте при long-cycle страхования.

Подготовка: A/B и causal inference.

6. ML system design + бизнес-кейс (60–90 минут)

Кейсы: «как ты бы построил скоринг водителей для UBI-тарифа», «как обнаружить организованную fraud-группу», «как удержать клиента от ухода». Сильные ответы — где обсуждаются интерпретация, время отклика модели в продакшене (для real-time скоринга), и устойчивость во времени.

7. Поведенческое + культурный fit (30–45 минут)

С тимлидом и менеджером. STAR-формат. Ингосстрах ценит DS с интересом к страхованию и готовностью работать в кросс-функциональной команде.

Особенности по командам

Pricing & Underwriting ML. Главная команда: модели частоты и тяжести для основных продуктов (КАСКО, ОСАГО, имущественное). Тесная связка с актуариями. Подойдёт DS с background в banking-scoring или actuarial science.

Telematics ML. Уникальная и сильная команда Ингосстраха — анализ стиля вождения (резкие торможения, превышения, маневры), скоринг водителей в реальном времени для UBI-тарифов, моделирование риска ДТП по поведенческим данным. Mix time-series и продуктовой аналитики. Подойдёт DS с интересом к sensor data, behavioral analytics и real-time системам.

Claims Antifraud. Детекция fraud в авто-выплатах (инсценированные ДТП, накрутки), медицинских claims, организованного мошенничества. Mix классики, графовых подходов и NLP.

Customer LTV & Cross-Sell. LTV-прогноз, propensity-to-buy для дополнительных продуктов, оптимизация cross-sell кампаний.

Churn & Retention. Прогноз ухода клиента, retention-кампании. Тесная связка с CRM.

Corporate Risk Analytics. Меньше команда, но влиятельная: моделирование рисков для корпоративных клиентов (грузы, имущество, финансовые риски). Подойдёт DS с интересом к корпоративной аналитике.

CV & Image ML. Меньше команда: оценка повреждений по фото из claims (особенно для авто), automated triage, NLP на описаниях. Подойдёт DS с CV-background.

Marketing & Acquisition Analytics. Атрибуция маркетинговых каналов, прогноз ROI кампаний, скоринг лидов, оптимизация креативов. Тесная связка с маркетинг- и performance-командами.

Pricing Stability & Monitoring. Команда мониторинга моделей в проде: drift-detection, переобучение по календарю, обнаружение сегментов с ухудшающейся точностью, методология ретроактивного аудита моделей.

Reinsurance Analytics. Меньше команда: оценка собственного удержания vs передачи риска, catastrophic-моделирование, актуарное взаимодействие с международными перестраховщиками. Часть работы на английском.

Что Ингосстрах ценит в DS

Глубина в pricing и actuarial. Сильный ответ на pricing-кейс: «выбрал GBM с monotone constraints на возраст и стаж, потому что регулятор требует, чтобы premium не уменьшалась при увеличении возраста водителя выше 50; для скоринга по телематике использовал sequence-модель на агрегированных дневных метриках с lookback в 30 дней, у бэнчмарка по out-of-time валидации Gini выше на 6pp». Weak: «обучил CatBoost».

Опыт работы с большими time-series. Телематика — это десятки миллионов событий в день. Опыт работы с такими объёмами в pandas + ClickHouse — большой плюс.

Интерпретируемость. В страховании это обязательное требование. SHAP, monotone constraints, PDP — стандарт.

Цифры и бизнес-эффект. «Обучил модель» — не аргумент. Strong-кандидат говорит про loss-ratio, retention, premium и долгосрочные эффекты.

Готовность к real-time inference. UBI-скоринг работает в real-time (или в near-real-time). Кандидат, не задающий вопросы про latency и feature engineering в realtime, выглядит сыро.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

Минимум 6–8 недель. Неделя 1–2: ML-теория (классика, GLM, бустинги, calibration). Неделя 3: LeetCode + pandas (50 задач). Неделя 4: SQL — оконки, ratio, time-series queries. Неделя 5: actuarial math + time-series basics (для телематики). Неделя 6: A/B + interpretability. Неделя 7: ML system design — отработай 4 кейса (pricing, telematics, antifraud, churn). Неделя 8: mock-интервью.

Для тренировки реальных вопросов с DS-собесов — открывай Карьерник: 1500+ задач по SQL, Python, A/B-тестам, статистике, продуктовой аналитике и ML по темам и сложности.

Частые ошибки

Первая — слабая работа с телематическими данными. Если ты на собесе говоришь «возьму pandas на полном датасете», это сигнал. Strong-кандидат сразу обсуждает sampling, distributed computing, time-windowed features.

Вторая — black-box модель без интерпретации. На вопрос «как ты объяснишь регулятору» нет правильного ответа без обсуждения SHAP / monotone constraints.

Третья — игнорирование long-cycle природы страхования. Loss-ratio проявляется через 6–12 мес после раскатки тарифа.

Четвёртая — слабая actuarial-сторона. Frequency × Severity — основа всего pricing.

Пятая — попытка прямо переносить подходы из e-commerce. Страхование — другая природа: 1-year контракты, low-frequency взаимодействие, регуляторные ограничения. Strong-кандидат сразу обсуждает разницу и предлагает соответствующий инструментарий: GLM-семейство для pricing, survival анализ для retention, propensity score matching для оценки эффекта вмешательств.

Шестая — слабый запас по интерпретируемости для UBI-скоринга. Когда модель работает на тарифе клиента в real-time, она должна быть устойчивой и объяснимой. Если кандидат предлагает deep recurrent-модели без обсуждения как объяснить водителю «почему ваш тариф вырос» — это серьёзный минус.

Связанные темы

FAQ

Сколько этапов в собесе DS в Ингосстрахе?

5–7 этапов: HR-скрининг, тестовое задание, ML / DS-теория, Python + SQL live-coding, A/B и эксперименты, ML system design + бизнес-кейс, поведенческое. Цикл — 4–6 недель.

Нужен ли опыт работы с телематическими данными?

Для команды Telematics ML — большой плюс. Для других направлений — не обязателен, но опыт работы с time-series или sensor data приветствуется.

Чем DS в Ингосстрахе отличается от DS в РЕСО?

Ингосстрах сильно представлен в телематике и UBI (Usage-Based Insurance), что даёт уникальные real-time / time-series задачи. По розничным продуктам — задачи похожи.

Какой английский нужен?

B1–B2 минимум, для senior — выше. Часть actuarial literature на английском.

Сколько платят DS в Ингосстрахе?

Зависит от грейда. Для middle DS — на уровне средних финтехов / банков, для senior — выше. Telematics ML и Antifraud команды обычно платят на премиум-грейде из-за специфики экспертизы.

Берут ли DS без опыта в страховании?

Берут, если сильный ML-фундамент и опыт с time-series или регуляторно-чувствительными моделями. Опыт в banking-scoring, антифроде или performance-маркетинге переносится хорошо.

Какие книги посмотреть до собеса?

По actuarial: Klugman «Loss Models». По телематике и behavioral analytics: статьи по UBI (Usage-Based Insurance) — практическая литература растёт быстрее академической. По интерпретируемости: Molnar «Interpretable Machine Learning». По SQL для большых time-series: документация ClickHouse и материалы по оптимизации запросов на лог-данных.