Собеседование на Data Scientist в СОГАЗе
Содержание:
Почему СОГАЗ — особенный работодатель для DS
СОГАЗ — один из крупнейших российских страховщиков, исторически связанный с Газпромом и его экосистемой, с очень сильной позицией в корпоративном страховании, ДМС и страховании жизни. Размер бизнеса — в топ-3 RU страхового рынка. Для Data Scientist это среда с серьёзной актуарной экспертизой, плотной кросс-функциональной работой и одной из самых больших ДМС-баз в стране. Уникальная специфика: ДМС-направление СОГАЗа даёт DS доступ к медицинским данным масштаба, который редко встречается за пределами медицинских учреждений и крупнейших страховщиков.
ML-домены: pricing-моделирование (для розничных и корпоративных продуктов), antifraud в страховых выплатах, churn prediction для пролонгации, customer LTV и cross-sell, ДМС-аналитика (классификация диагнозов, прогноз использования медицинских услуг, оптимизация сетки клиник), корпоративная риск-аналитика, NLP на текстах claims и медицинских документах, CV для оценки повреждений в авто-страховании. Стек: Python, scikit-learn, CatBoost, R для actuarial, PyTorch для NLP/CV-задач, PostgreSQL, Oracle, ClickHouse для аналитики, Airflow, MLflow, отдельная инфраструктура под защищённые медицинские данные.
Актуальные вакансии — на hh.ru и сайте СОГАЗа.
Информация основана на публичных источниках и опыте кандидатов. Команды СОГАЗа используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
Цикл 4–6 недель и включает 5–7 этапов. Процесс корпоративный, ближе к крупному банку. Несколько технических секций, отдельная продуктовая, дополнительные проверки по безопасности данных для senior-кандидатов.
1. HR-скрининг (30–45 минут)
Рекрутер проверяет: production-опыт DS (1.5+ года), английский, причины смены работы, ожидания. Опыт в страховании, банковском скоринге, антифроде или медицинских данных — большой плюс. Питч 60–90 секунд.
2. Тестовое задание (3–7 дней)
Часто даётся: датасет с историей полисов или claims, нужно построить модель прогноза или скоринга. Сильные кандидаты сразу обсуждают интерпретируемость, фиксацию seed для воспроизводимости и time-based валидацию.
3. ML / DS-теория (60–90 минут)
С senior DS из команды. Темы: классика (логистическая регрессия, GLM-семейство, бустинги, regularization, calibration), метрики (Gini, KS, lift), survival для churn, actuarial math (frequency × severity, Tweedie, monotone constraints), causal inference для оценки эффекта вмешательств. Доп. блок для ДМС-направления: NLP на медицинских текстах, классификация диагнозов по МКБ-10, специфика медицинских данных.
Подготовка: Классическая ML на собесе, Метрики модели.
4. Python + SQL live-coding (60–90 минут)
Live: 1 алгоритмическая задача (LeetCode Medium), 1–2 на pandas, 1–2 на SQL. SQL обычно на ClickHouse или PostgreSQL для аналитики + Oracle для legacy. Оконные функции, ratio, JOIN на больших таблицах.
Подготовка: Live-coding, SQL-собес.
5. A/B и эксперименты (60 минут)
Спрашивают: дизайн эксперимента, sample size, MDE, ratio-метрики, peeking, как анализировать долгосрочные эффекты при long-cycle страховании.
Подготовка: A/B и causal inference.
6. ML system design + бизнес-кейс (60–90 минут)
Кейсы: «спроектируй pricing для нового продукта», «как обнаружить fraud в ДМС-claims», «как сегментировать клиентов для cross-sell от ОМС к ДМС». Сильные ответы — где обсуждаются интерпретация, regulatory compliance и долгосрочная устойчивость.
7. Поведенческое + безопасность медицинских данных (45–60 минут)
С тимлидом и менеджером. STAR-формат. Доп. блок для middle+ — проверка понимания требований к работе с медицинскими данными (FZ-152, врачебная тайна, разрешённые операции с PII).
Особенности по командам
Pricing & Underwriting ML. Главная команда: модели частоты и тяжести для розничных и корпоративных продуктов. Тесная связка с актуариями. Челленджи: интерпретация, стабильность, регуляторное соответствие. Подойдёт DS с background в banking-scoring или actuarial.
Health Analytics / ДМС. Уникальная для СОГАЗа команда, работающая с медицинскими данными масштаба, который редко доступен DS вне крупных страховщиков. Задачи: классификация диагнозов и medical procedures, прогноз использования медицинских услуг клиентом, оптимизация сетки клиник-партнёров, NLP на amfbulatory cards и заключениях врачей, fraud в медицинских claims. Подойдёт DS с интересом к healthcare-data и NLP.
Antifraud. Детекция fraud в страховых выплатах — особенно в авто-страховании и ДМС. Mix классики, графовых подходов, NLP.
Corporate Risk & Industrial Risk. Уникальная для СОГАЗа сильная команда по корпоративному страхованию: моделирование рисков для нефтегазового сектора, промышленных предприятий, инфраструктуры. Подойдёт DS с интересом к нестандартным рискам и сложным сегментам.
Customer LTV & Cross-Sell. LTV-прогноз, propensity-to-buy, оптимизация cross-sell кампаний.
Churn & Retention. Прогноз ухода клиента, retention-кампании.
Reinsurance & Capital Modeling. Уникальная для крупных страховщиков команда: моделирование собственного удержания vs передачи риска перестраховщикам, capital adequacy, Solvency-аналитика. Сложные tail-распределения и catastrophic events. Часть работы на английском, в связке с международными перестраховщиками.
Health & Medical NLP. Меньше команда в составе ДМС-направления: NLP на amfbulatory cards, классификация медицинских заключений, выделение ключевых обстоятельств для оценки claim. Сложная задача — медицинские тексты в РФ имеют разный формат у разных клиник.
Marketing & Acquisition Analytics. Атрибуция, прогноз ROI кампаний для розничных продуктов (особенно ОСАГО, КАСКО), скоринг лидов.
Что СОГАЗ ценит в DS
Глубина в actuarial math. Strong: «выбрал Tweedie GLM для модели чистой премии, потому что в данных одновременно есть нули (нет страхового случая) и положительные суммы убытков с heavy-tail распределением; сравнил с двухступенчатой моделью frequency × severity, по cross-validation R² на out-of-time выборке Tweedie дал +1.8pp». Weak: «обучил CatBoost».
Понимание ДМС-специфики. Медицинские данные требуют особого обращения: code systems (МКБ-10, МКБ-11), фрагментация данных по клиникам, длинные временные ряды лечения, конфиденциальность. Кандидат без понимания этого выглядит сыро для health-команды.
Интерпретируемость и стабильность. Регулятор и аудиторы требуют объяснимости. SHAP, monotone constraints, partial dependence plots — стандартный инструментарий.
Готовность к корпоративному процессу. СОГАЗ — большая структура с формальными процессами и плотной интеграцией с экосистемой Газпрома. Работа в больших процессах — must.
Английский. B2 минимум, для senior — выше. Часть actuarial literature на английском, и работа с международными перестраховщиками может потребовать переписки на нём.
Как готовиться: план
Минимум 7–9 недель. Неделя 1–2: ML-теория (классика, GLM-семейство, calibration, monotone constraints). Неделя 3: LeetCode + pandas (50 задач). Неделя 4: SQL — оконки, ratio, complex JOINs, time-series-queries. Неделя 5: actuarial math (frequency-severity, Tweedie, GAM, SHAP). Неделя 6: A/B + causal inference. Неделя 7: для health-направления — изучи МКБ-10, NLP на медицинских текстах. Неделя 8: ML system design — отработай 4–5 кейсов. Неделя 9: mock-интервью.
Для тренировки реальных вопросов с DS-собесов — открывай Карьерник: 1500+ задач по SQL, Python, A/B-тестам, статистике, продуктовой аналитике и ML по темам и сложности.
Частые ошибки
Первая — слабая actuarial-сторона. На вопрос про выбор модели для премиум-расчёта без обсуждения frequency × severity или Tweedie кандидат выглядит сыро.
Вторая — игнорирование интерпретируемости. Black-box без SHAP / monotone constraints — серьёзный минус, особенно в корпоративных контрактах с аудиторскими проверками.
Третья — слабое понимание медицинских данных для ДМС-команды. Без знания МКБ-10 и специфики code systems — gap.
Четвёртая — попытка прямо переносить подходы из e-commerce / соц-сетей. Страхование — другая природа.
Пятая — слабый английский для senior-позиций. Часть документации и actuarial literature — на нём.
Связанные темы
- Собеседование на Data Scientist в РЕСО
- Собеседование на Data Scientist в Согласии
- Собеседование на Data Scientist в ВСК
- Собеседование на Data Scientist — гайд
FAQ
Сколько этапов в собесе DS в СОГАЗе?
5–7 этапов: HR-скрининг, тестовое задание, ML / DS-теория, Python + SQL live-coding, A/B и эксперименты, ML system design + бизнес-кейс, поведенческое + безопасность данных. Цикл — 4–6 недель.
Нужен ли опыт работы с медицинскими данными?
Для health-команды (ДМС) — большой плюс. Для других направлений — не обязателен. Готовность изучить МКБ-10 и специфику до собеса — must для ДМС-роли.
Чем DS в СОГАЗе отличается от DS в РЕСО?
СОГАЗ сильно представлен в корпоративном страховании и ДМС, что даёт уникальные задачи corporate risk analytics и health analytics. РЕСО фокусируется больше на retail-сегменте.
Какой английский нужен?
B2 минимум, для senior — выше. Actuarial literature и часть инструментов — на английском.
Сколько платят DS в СОГАЗе?
Зависит от грейда. Для middle DS — на уровне средних финтехов / банков, для senior — выше. Pricing / Corporate risk и Health analytics команды обычно платят на премиум-грейде из-за специфики экспертизы.
Берут ли DS без опыта в Газпром-экосистеме?
Да. Главное — сильный фундамент по ML, опыт работы с регуляторно-чувствительными данными и готовность работать в корпоративном процессе. Готовность изучить специфику экосистемы — постепенно осваивается на работе.
Какие книги посмотреть до собеса?
По actuarial: Klugman «Loss Models», Frees «Regression Modeling with Actuarial and Financial Applications». По health analytics: обзоры по медицинскому NLP и работе с claims data. По интерпретируемости: Molnar «Interpretable Machine Learning».