A/B-тест показывает: общая конверсия контроля 5.0%, теста 4.5%. Но при разбивке по устройствам: мобильные — контроль 3.0%, тест 3.5%; десктоп — контроль 7.0%, тест 7.5%. Тест лучше в каждом сегменте, но хуже в сумме. Что произошло?
AЭто парадокс Симпсона: разное соотношение мобильных и десктопных пользователей в группах меняет общий результат
BТест содержит баг в логировании: события с мобильных устройств не записываются в тестовой группе
CРезультат по сегментам статистически незначим из-за маленьких подвыборок внутри каждого сегмента
DРандомизация нарушена: тестовая группа получила непропорционально много мобильных пользователей
Правильный ответ. Парадокс Симпсона: тренд по сегментам может развернуться в агрегированных данных из-за разного веса сегментов.
Разбор
Парадокс Симпсона возникает, когда в тестовой группе непропорционально больше пользователей из сегмента с низкой базовой конверсией (мобильные). Даже при улучшении в каждом сегменте взвешенная сумма оказывается ниже. Решение — анализировать с поправкой на состав: стратификация при рандомизации или пост-стратификация при анализе. SRM-тест также помог бы обнаружить перекос.
Проверь себя · 1/3разбор после ответа
Какая пара гипотез корректна для двустороннего
A/B test, где метрика — конверсия?Ещё вопросы по теме «Основы A/B-тестирования»
- После редизайна главной страницы конверсия выросла по сравнению с прошлой неделей. Почему без `A/B test` нельзя уверенно сказать, что рост вызван именно редизайном?
- Вы тестируете новый текст кнопки оплаты. Что должно быть верно для корректного сравнения `control` и `treatment`?
- Какая пара гипотез корректна для двустороннего `A/B test`, где метрика — конверсия?
- Конверсия в `control` 10%, в `treatment` 11%. Как корректно описать абсолютный и относительный `lift`?
- Что в первую очередь даёт `randomization` в `A/B test`?
- Все вопросы по «Основы A/B-тестирования» →