A/B-тест показывает: общая конверсия контроля 5.0%, теста 4.5%. Но при разбивке по устройствам: мобильные — контроль 3.0%, тест 3.5%; десктоп — контроль 7.0%, тест 7.5%. Тест лучше в каждом сегменте, но хуже в сумме. Что произошло?

AЭто парадокс Симпсона: разное соотношение мобильных и десктопных пользователей в группах меняет общий результат
BТест содержит баг в логировании: события с мобильных устройств не записываются в тестовой группе
CРезультат по сегментам статистически незначим из-за маленьких подвыборок внутри каждого сегмента
DРандомизация нарушена: тестовая группа получила непропорционально много мобильных пользователей
Правильный ответ. Парадокс Симпсона: тренд по сегментам может развернуться в агрегированных данных из-за разного веса сегментов.

Разбор

Парадокс Симпсона возникает, когда в тестовой группе непропорционально больше пользователей из сегмента с низкой базовой конверсией (мобильные). Даже при улучшении в каждом сегменте взвешенная сумма оказывается ниже. Решение — анализировать с поправкой на состав: стратификация при рандомизации или пост-стратификация при анализе. SRM-тест также помог бы обнаружить перекос.

Проверь себя · 1/3разбор после ответа
Какая пара гипотез корректна для двустороннего A/B test, где метрика — конверсия?
Тренировать A/B в Telegram

Ещё вопросы по теме «Основы A/B-тестирования»