Парадокс Симпсона — ловушка, которую должен знать каждый аналитик
Что такое парадокс Симпсона
Парадокс Симпсона (Simpson's paradox) — статистический феномен, при котором тренд, наблюдаемый в нескольких группах данных, исчезает или меняется на противоположный, когда группы объединяют. Проще говоря: в каждой подгруппе A лучше B, но в сумме — B лучше A.
Это не баг в данных и не ошибка вычислений. Это реальное свойство агрегации, которое ломает интуицию и приводит к неправильным решениям. Если вы работаете с сегментацией пользователей или оцениваете результаты A/B-тестов, парадокс Симпсона — одна из главных ловушек.
Классические примеры
Приёмная комиссия Беркли (1973)
Самый известный пример. Университет Калифорнии в Беркли обвинили в дискриминации женщин: общий процент принятых мужчин (44%) был значительно выше, чем женщин (35%). Казалось, вывод очевиден.
Но при анализе по факультетам картина перевернулась: на большинстве факультетов женщин принимали с более высоким процентом. Причина — женщины чаще подавали заявки на конкурсные факультеты с низким общим процентом приёма (например, English), а мужчины — на менее конкурсные (например, Engineering).
| Факультет | Мужчины (принято) | Женщины (принято) |
|---|---|---|
| A | 62% | 82% |
| B | 63% | 68% |
| C | 37% | 34% |
| D | 33% | 35% |
| Итого | 44% | 35% |
Женщины побеждают почти в каждой строке, но проигрывают в итоговой. Это и есть парадокс Симпсона.
Камни в почках
Исследование 1986 года: лечение A эффективнее B для маленьких камней (93% vs 87%) и для больших камней (73% vs 69%). Но в сумме B лучше A (83% vs 78%). Причина — лечение A чаще назначали при тяжёлых случаях (большие камни с низким процентом успеха), что утянуло общий показатель вниз.
Почему парадокс опасен в A/B-тестах
Представьте: вы запустили A/B-тест нового онбординга. Общая конверсия в тесте ниже контроля. Вывод — откатываем? Не спешите.
Если тестовая группа получила непропорционально больше пользователей из «тяжёлого» сегмента (например, мобильный трафик с низкой конверсией), общий результат будет искажён. При разбивке по сегментам может оказаться, что тест побеждает в каждом сегменте.
Рандомизация в A/B-тесте должна выравнивать группы, но на практике перекосы возможны — особенно при маленьких выборках или кривой рандомизации. Поэтому опытные аналитики всегда смотрят результаты не только в агрегате, но и по ключевым сегментам.
Подробнее про ошибки в экспериментах — в гайде по A/B-тестированию.
SQL: как увидеть парадокс Симпсона в данных
Допустим, у нас есть таблица ab_test_results с полями user_id, variant (control/test), segment (mobile/desktop) и converted (0/1). Покажем, как агрегированный результат может противоречить сегментированному.
-- Шаг 1: конверсия по сегментам
SELECT
segment,
variant,
COUNT(*) AS users,
ROUND(100.0 * SUM(converted) / COUNT(*), 1) AS conversion_rate
FROM ab_test_results
GROUP BY segment, variant
ORDER BY segment, variant;
-- Шаг 2: общая конверсия (без сегментации)
SELECT
variant,
COUNT(*) AS users,
ROUND(100.0 * SUM(converted) / COUNT(*), 1) AS conversion_rate
FROM ab_test_results
GROUP BY variant;Если в первом запросе test побеждает в каждом сегменте, а во втором — control побеждает в итоге, перед вами парадокс Симпсона. Причина — неравномерное распределение пользователей по сегментам между вариантами.
Решение: всегда сегментируйте результаты и проверяйте SRM (Sample Ratio Mismatch) по ключевым разрезам. Полезно освежить когортный анализ — там та же идея: агрегат скрывает детали.
Как обнаружить и не попасться
1. Сегментируйте. Любой агрегированный результат проверяйте в разрезе ключевых сегментов: платформа, источник трафика, страна, тариф.
2. Проверяйте распределение. Если группы (варианты, периоды, регионы) имеют радикально разный состав — агрегация опасна. Стандартизируйте: взвешивайте по одной и той же структуре.
3. Ищите скрытую переменную. Парадокс Симпсона почти всегда указывает на конфаундер — переменную, которая влияет и на группировку, и на результат. Это напрямую связано с темой корреляции и причинности.
4. Визуализируйте. Scatter plot с разбивкой по группам моментально покажет, если тренды внутри групп противоположны общему.
5. Не доверяйте одному числу. «Средний чек вырос» — у кого именно? У всех сегментов или за счёт одного? Привычка декомпозировать метрику — лучшая защита.
Вопросы с собеседований
— Что такое парадокс Симпсона? Приведите пример. — Это статистический феномен, при котором тренд, наблюдаемый в каждой подгруппе, меняется на противоположный при объединении данных. Пример — приём в Беркли: женщин принимали чаще на каждом факультете, но в сумме процент принятых мужчин был выше, потому что женщины подавали заявки на более конкурсные программы.
— Как парадокс Симпсона может повлиять на результаты A/B-теста? — Если распределение пользователей по сегментам неравномерно между вариантами, общий результат может быть обратным результатам по сегментам. Например, тест побеждает и на мобайле, и на десктопе, но проигрывает в агрегате, потому что в тестовую группу попало больше мобильных пользователей с исходно низкой конверсией. Решение — проверять SRM по сегментам и анализировать результаты в разрезах.
— Как бы вы проверили, нет ли парадокса Симпсона в ваших данных? — Посчитал бы метрику в разрезе основных сегментов и сравнил с агрегированным показателем. Если направление эффекта отличается — это сигнал парадокса. Далее проверил бы распределение наблюдений по сегментам: какой сегмент доминирует и как это влияет на взвешивание.
— Связан ли парадокс Симпсона с конфаундерами? — Да, напрямую. Парадокс возникает из-за скрытой переменной (конфаундера), которая связана и с группировкой, и с исходом. В примере Беркли конфаундер — выбор факультета. Он коррелирует и с полом, и с вероятностью приёма.
FAQ
Парадокс Симпсона — это ошибка в данных?
Нет. Данные корректны. Парадокс возникает из-за агрегации неоднородных групп. Это свойство математики, а не баг. Ошибка — не парадокс сам по себе, а решение, принятое на основе агрегированных данных без разбивки по сегментам.
Часто ли парадокс Симпсона встречается на практике?
Чаще, чем кажется. В любой ситуации, где подгруппы имеют разный размер и разный базовый уровень метрики, агрегация может дать искажённый результат. Особенно часто в маркетинговой аналитике, медицинских исследованиях и при анализе A/B-тестов по нескольким рынкам.
Как правильно интерпретировать данные при парадоксе Симпсона — верить сегментам или агрегату?
Зависит от вопроса. Если вы принимаете решение для конкретного сегмента — верьте сегменту. Если для всей аудитории — нужно понять, какая переменная вызывает парадокс, и принять решение с учётом структуры данных. Универсального ответа нет — важен контекст и понимание каузальной связи.
Потренируйте вопросы по статистике — откройте тренажёр. 1500+ вопросов для собеседования аналитика. Бесплатно.