Собеседование на Data Scientist в СОГАЗе

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему СОГАЗ — особенный работодатель для DS

СОГАЗ — один из крупнейших российских страховщиков, исторически связанный с Газпромом и его экосистемой, с очень сильной позицией в корпоративном страховании, ДМС и страховании жизни. Размер бизнеса — в топ-3 RU страхового рынка. Для Data Scientist это среда с серьёзной актуарной экспертизой, плотной кросс-функциональной работой и одной из самых больших ДМС-баз в стране. Уникальная специфика: ДМС-направление СОГАЗа даёт DS доступ к медицинским данным масштаба, который редко встречается за пределами медицинских учреждений и крупнейших страховщиков.

ML-домены: pricing-моделирование (для розничных и корпоративных продуктов), antifraud в страховых выплатах, churn prediction для пролонгации, customer LTV и cross-sell, ДМС-аналитика (классификация диагнозов, прогноз использования медицинских услуг, оптимизация сетки клиник), корпоративная риск-аналитика, NLP на текстах claims и медицинских документах, CV для оценки повреждений в авто-страховании. Стек: Python, scikit-learn, CatBoost, R для actuarial, PyTorch для NLP/CV-задач, PostgreSQL, Oracle, ClickHouse для аналитики, Airflow, MLflow, отдельная инфраструктура под защищённые медицинские данные.

Актуальные вакансии — на hh.ru и сайте СОГАЗа.

Информация основана на публичных источниках и опыте кандидатов. Команды СОГАЗа используют разные процессы — уточняйте у рекрутера.

Этапы собеседования

Цикл 4–6 недель и включает 5–7 этапов. Процесс корпоративный, ближе к крупному банку. Несколько технических секций, отдельная продуктовая, дополнительные проверки по безопасности данных для senior-кандидатов.

1. HR-скрининг (30–45 минут)

Рекрутер проверяет: production-опыт DS (1.5+ года), английский, причины смены работы, ожидания. Опыт в страховании, банковском скоринге, антифроде или медицинских данных — большой плюс. Питч 60–90 секунд.

2. Тестовое задание (3–7 дней)

Часто даётся: датасет с историей полисов или claims, нужно построить модель прогноза или скоринга. Сильные кандидаты сразу обсуждают интерпретируемость, фиксацию seed для воспроизводимости и time-based валидацию.

3. ML / DS-теория (60–90 минут)

С senior DS из команды. Темы: классика (логистическая регрессия, GLM-семейство, бустинги, regularization, calibration), метрики (Gini, KS, lift), survival для churn, actuarial math (frequency × severity, Tweedie, monotone constraints), causal inference для оценки эффекта вмешательств. Доп. блок для ДМС-направления: NLP на медицинских текстах, классификация диагнозов по МКБ-10, специфика медицинских данных.

Подготовка: Классическая ML на собесе, Метрики модели.

4. Python + SQL live-coding (60–90 минут)

Live: 1 алгоритмическая задача (LeetCode Medium), 1–2 на pandas, 1–2 на SQL. SQL обычно на ClickHouse или PostgreSQL для аналитики + Oracle для legacy. Оконные функции, ratio, JOIN на больших таблицах.

Подготовка: Live-coding, SQL-собес.

5. A/B и эксперименты (60 минут)

Спрашивают: дизайн эксперимента, sample size, MDE, ratio-метрики, peeking, как анализировать долгосрочные эффекты при long-cycle страховании.

Подготовка: A/B и causal inference.

6. ML system design + бизнес-кейс (60–90 минут)

Кейсы: «спроектируй pricing для нового продукта», «как обнаружить fraud в ДМС-claims», «как сегментировать клиентов для cross-sell от ОМС к ДМС». Сильные ответы — где обсуждаются интерпретация, regulatory compliance и долгосрочная устойчивость.

7. Поведенческое + безопасность медицинских данных (45–60 минут)

С тимлидом и менеджером. STAR-формат. Доп. блок для middle+ — проверка понимания требований к работе с медицинскими данными (FZ-152, врачебная тайна, разрешённые операции с PII).

Особенности по командам

Pricing & Underwriting ML. Главная команда: модели частоты и тяжести для розничных и корпоративных продуктов. Тесная связка с актуариями. Челленджи: интерпретация, стабильность, регуляторное соответствие. Подойдёт DS с background в banking-scoring или actuarial.

Health Analytics / ДМС. Уникальная для СОГАЗа команда, работающая с медицинскими данными масштаба, который редко доступен DS вне крупных страховщиков. Задачи: классификация диагнозов и medical procedures, прогноз использования медицинских услуг клиентом, оптимизация сетки клиник-партнёров, NLP на amfbulatory cards и заключениях врачей, fraud в медицинских claims. Подойдёт DS с интересом к healthcare-data и NLP.

Antifraud. Детекция fraud в страховых выплатах — особенно в авто-страховании и ДМС. Mix классики, графовых подходов, NLP.

Corporate Risk & Industrial Risk. Уникальная для СОГАЗа сильная команда по корпоративному страхованию: моделирование рисков для нефтегазового сектора, промышленных предприятий, инфраструктуры. Подойдёт DS с интересом к нестандартным рискам и сложным сегментам.

Customer LTV & Cross-Sell. LTV-прогноз, propensity-to-buy, оптимизация cross-sell кампаний.

Churn & Retention. Прогноз ухода клиента, retention-кампании.

Reinsurance & Capital Modeling. Уникальная для крупных страховщиков команда: моделирование собственного удержания vs передачи риска перестраховщикам, capital adequacy, Solvency-аналитика. Сложные tail-распределения и catastrophic events. Часть работы на английском, в связке с международными перестраховщиками.

Health & Medical NLP. Меньше команда в составе ДМС-направления: NLP на amfbulatory cards, классификация медицинских заключений, выделение ключевых обстоятельств для оценки claim. Сложная задача — медицинские тексты в РФ имеют разный формат у разных клиник.

Marketing & Acquisition Analytics. Атрибуция, прогноз ROI кампаний для розничных продуктов (особенно ОСАГО, КАСКО), скоринг лидов.

Что СОГАЗ ценит в DS

Глубина в actuarial math. Strong: «выбрал Tweedie GLM для модели чистой премии, потому что в данных одновременно есть нули (нет страхового случая) и положительные суммы убытков с heavy-tail распределением; сравнил с двухступенчатой моделью frequency × severity, по cross-validation R² на out-of-time выборке Tweedie дал +1.8pp». Weak: «обучил CatBoost».

Понимание ДМС-специфики. Медицинские данные требуют особого обращения: code systems (МКБ-10, МКБ-11), фрагментация данных по клиникам, длинные временные ряды лечения, конфиденциальность. Кандидат без понимания этого выглядит сыро для health-команды.

Интерпретируемость и стабильность. Регулятор и аудиторы требуют объяснимости. SHAP, monotone constraints, partial dependence plots — стандартный инструментарий.

Готовность к корпоративному процессу. СОГАЗ — большая структура с формальными процессами и плотной интеграцией с экосистемой Газпрома. Работа в больших процессах — must.

Английский. B2 минимум, для senior — выше. Часть actuarial literature на английском, и работа с международными перестраховщиками может потребовать переписки на нём.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

Минимум 7–9 недель. Неделя 1–2: ML-теория (классика, GLM-семейство, calibration, monotone constraints). Неделя 3: LeetCode + pandas (50 задач). Неделя 4: SQL — оконки, ratio, complex JOINs, time-series-queries. Неделя 5: actuarial math (frequency-severity, Tweedie, GAM, SHAP). Неделя 6: A/B + causal inference. Неделя 7: для health-направления — изучи МКБ-10, NLP на медицинских текстах. Неделя 8: ML system design — отработай 4–5 кейсов. Неделя 9: mock-интервью.

Для тренировки реальных вопросов с DS-собесов — открывай Карьерник: 1500+ задач по SQL, Python, A/B-тестам, статистике, продуктовой аналитике и ML по темам и сложности.

Частые ошибки

Первая — слабая actuarial-сторона. На вопрос про выбор модели для премиум-расчёта без обсуждения frequency × severity или Tweedie кандидат выглядит сыро.

Вторая — игнорирование интерпретируемости. Black-box без SHAP / monotone constraints — серьёзный минус, особенно в корпоративных контрактах с аудиторскими проверками.

Третья — слабое понимание медицинских данных для ДМС-команды. Без знания МКБ-10 и специфики code systems — gap.

Четвёртая — попытка прямо переносить подходы из e-commerce / соц-сетей. Страхование — другая природа.

Пятая — слабый английский для senior-позиций. Часть документации и actuarial literature — на нём.

Связанные темы

FAQ

Сколько этапов в собесе DS в СОГАЗе?

5–7 этапов: HR-скрининг, тестовое задание, ML / DS-теория, Python + SQL live-coding, A/B и эксперименты, ML system design + бизнес-кейс, поведенческое + безопасность данных. Цикл — 4–6 недель.

Нужен ли опыт работы с медицинскими данными?

Для health-команды (ДМС) — большой плюс. Для других направлений — не обязателен. Готовность изучить МКБ-10 и специфику до собеса — must для ДМС-роли.

Чем DS в СОГАЗе отличается от DS в РЕСО?

СОГАЗ сильно представлен в корпоративном страховании и ДМС, что даёт уникальные задачи corporate risk analytics и health analytics. РЕСО фокусируется больше на retail-сегменте.

Какой английский нужен?

B2 минимум, для senior — выше. Actuarial literature и часть инструментов — на английском.

Сколько платят DS в СОГАЗе?

Зависит от грейда. Для middle DS — на уровне средних финтехов / банков, для senior — выше. Pricing / Corporate risk и Health analytics команды обычно платят на премиум-грейде из-за специфики экспертизы.

Берут ли DS без опыта в Газпром-экосистеме?

Да. Главное — сильный фундамент по ML, опыт работы с регуляторно-чувствительными данными и готовность работать в корпоративном процессе. Готовность изучить специфику экосистемы — постепенно осваивается на работе.

Какие книги посмотреть до собеса?

По actuarial: Klugman «Loss Models», Frees «Regression Modeling with Actuarial and Financial Applications». По health analytics: обзоры по медицинскому NLP и работе с claims data. По интерпретируемости: Molnar «Interpretable Machine Learning».