Парадокс Симпсона — ловушка, которую должен знать каждый аналитик

Что такое парадокс Симпсона

Парадокс Симпсона (Simpson's paradox) — статистический феномен, при котором тренд, наблюдаемый в нескольких группах данных, исчезает или меняется на противоположный, когда группы объединяют. Проще говоря: в каждой подгруппе A лучше B, но в сумме — B лучше A.

Это не баг в данных и не ошибка вычислений. Это реальное свойство агрегации, которое ломает интуицию и приводит к неправильным решениям. Если вы работаете с сегментацией пользователей или оцениваете результаты A/B-тестов, парадокс Симпсона — одна из главных ловушек.

Классические примеры

Приёмная комиссия Беркли (1973)

Самый известный пример. Университет Калифорнии в Беркли обвинили в дискриминации женщин: общий процент принятых мужчин (44%) был значительно выше, чем женщин (35%). Казалось, вывод очевиден.

Но при анализе по факультетам картина перевернулась: на большинстве факультетов женщин принимали с более высоким процентом. Причина — женщины чаще подавали заявки на конкурсные факультеты с низким общим процентом приёма (например, English), а мужчины — на менее конкурсные (например, Engineering).

Факультет Мужчины (принято) Женщины (принято)
A 62% 82%
B 63% 68%
C 37% 34%
D 33% 35%
Итого 44% 35%

Женщины побеждают почти в каждой строке, но проигрывают в итоговой. Это и есть парадокс Симпсона.

Камни в почках

Исследование 1986 года: лечение A эффективнее B для маленьких камней (93% vs 87%) и для больших камней (73% vs 69%). Но в сумме B лучше A (83% vs 78%). Причина — лечение A чаще назначали при тяжёлых случаях (большие камни с низким процентом успеха), что утянуло общий показатель вниз.

Почему парадокс опасен в A/B-тестах

Представьте: вы запустили A/B-тест нового онбординга. Общая конверсия в тесте ниже контроля. Вывод — откатываем? Не спешите.

Если тестовая группа получила непропорционально больше пользователей из «тяжёлого» сегмента (например, мобильный трафик с низкой конверсией), общий результат будет искажён. При разбивке по сегментам может оказаться, что тест побеждает в каждом сегменте.

Рандомизация в A/B-тесте должна выравнивать группы, но на практике перекосы возможны — особенно при маленьких выборках или кривой рандомизации. Поэтому опытные аналитики всегда смотрят результаты не только в агрегате, но и по ключевым сегментам.

Подробнее про ошибки в экспериментах — в гайде по A/B-тестированию.

SQL: как увидеть парадокс Симпсона в данных

Допустим, у нас есть таблица ab_test_results с полями user_id, variant (control/test), segment (mobile/desktop) и converted (0/1). Покажем, как агрегированный результат может противоречить сегментированному.

-- Шаг 1: конверсия по сегментам
SELECT
    segment,
    variant,
    COUNT(*) AS users,
    ROUND(100.0 * SUM(converted) / COUNT(*), 1) AS conversion_rate
FROM ab_test_results
GROUP BY segment, variant
ORDER BY segment, variant;

-- Шаг 2: общая конверсия (без сегментации)
SELECT
    variant,
    COUNT(*) AS users,
    ROUND(100.0 * SUM(converted) / COUNT(*), 1) AS conversion_rate
FROM ab_test_results
GROUP BY variant;

Если в первом запросе test побеждает в каждом сегменте, а во втором — control побеждает в итоге, перед вами парадокс Симпсона. Причина — неравномерное распределение пользователей по сегментам между вариантами.

Решение: всегда сегментируйте результаты и проверяйте SRM (Sample Ratio Mismatch) по ключевым разрезам. Полезно освежить когортный анализ — там та же идея: агрегат скрывает детали.

Как обнаружить и не попасться

1. Сегментируйте. Любой агрегированный результат проверяйте в разрезе ключевых сегментов: платформа, источник трафика, страна, тариф.

2. Проверяйте распределение. Если группы (варианты, периоды, регионы) имеют радикально разный состав — агрегация опасна. Стандартизируйте: взвешивайте по одной и той же структуре.

3. Ищите скрытую переменную. Парадокс Симпсона почти всегда указывает на конфаундер — переменную, которая влияет и на группировку, и на результат. Это напрямую связано с темой корреляции и причинности.

4. Визуализируйте. Scatter plot с разбивкой по группам моментально покажет, если тренды внутри групп противоположны общему.

5. Не доверяйте одному числу. «Средний чек вырос» — у кого именно? У всех сегментов или за счёт одного? Привычка декомпозировать метрику — лучшая защита.

Вопросы с собеседований

Что такое парадокс Симпсона? Приведите пример. — Это статистический феномен, при котором тренд, наблюдаемый в каждой подгруппе, меняется на противоположный при объединении данных. Пример — приём в Беркли: женщин принимали чаще на каждом факультете, но в сумме процент принятых мужчин был выше, потому что женщины подавали заявки на более конкурсные программы.

Как парадокс Симпсона может повлиять на результаты A/B-теста? — Если распределение пользователей по сегментам неравномерно между вариантами, общий результат может быть обратным результатам по сегментам. Например, тест побеждает и на мобайле, и на десктопе, но проигрывает в агрегате, потому что в тестовую группу попало больше мобильных пользователей с исходно низкой конверсией. Решение — проверять SRM по сегментам и анализировать результаты в разрезах.

Как бы вы проверили, нет ли парадокса Симпсона в ваших данных? — Посчитал бы метрику в разрезе основных сегментов и сравнил с агрегированным показателем. Если направление эффекта отличается — это сигнал парадокса. Далее проверил бы распределение наблюдений по сегментам: какой сегмент доминирует и как это влияет на взвешивание.

Связан ли парадокс Симпсона с конфаундерами? — Да, напрямую. Парадокс возникает из-за скрытой переменной (конфаундера), которая связана и с группировкой, и с исходом. В примере Беркли конфаундер — выбор факультета. Он коррелирует и с полом, и с вероятностью приёма.

FAQ

Парадокс Симпсона — это ошибка в данных?

Нет. Данные корректны. Парадокс возникает из-за агрегации неоднородных групп. Это свойство математики, а не баг. Ошибка — не парадокс сам по себе, а решение, принятое на основе агрегированных данных без разбивки по сегментам.

Часто ли парадокс Симпсона встречается на практике?

Чаще, чем кажется. В любой ситуации, где подгруппы имеют разный размер и разный базовый уровень метрики, агрегация может дать искажённый результат. Особенно часто в маркетинговой аналитике, медицинских исследованиях и при анализе A/B-тестов по нескольким рынкам.

Как правильно интерпретировать данные при парадоксе Симпсона — верить сегментам или агрегату?

Зависит от вопроса. Если вы принимаете решение для конкретного сегмента — верьте сегменту. Если для всей аудитории — нужно понять, какая переменная вызывает парадокс, и принять решение с учётом структуры данных. Универсального ответа нет — важен контекст и понимание каузальной связи.


Потренируйте вопросы по статистике — откройте тренажёр. 1500+ вопросов для собеседования аналитика. Бесплатно.