A/B-тест показывает: общая конверсия контроля 5.0%, теста 4.5%. Но при разбивке по устройствам: мобильные — контроль 3.0%, тест 3.5%; десктоп — контроль 7.0%, тест 7.5%. Тест лучше в каждом сегменте, но хуже в сумме. Что произошло?

Question

Карьерник · Accepted Answer

Правильный ответ: Это парадокс Симпсона: разное соотношение мобильных и десктопных пользователей в группах меняет общий результат. Парадокс Симпсона: тренд по сегментам может развернуться в агрегированных данных из-за разного веса сегментов. Парадокс Симпсона возникает, когда в тестовой группе непропорционально больше пользователей из сегмента с низкой базовой конверсией (мобильные). Даже при улучшении в каждом сегменте взвешенная сумма оказывается ниже. Решение — анализировать с поправкой на состав: стратификация при рандомизации или пост-стратификация при анализе. SRM-тест также помог бы обнаружить перекос.

Разбор

Ещё вопросы по теме «Основы A/B-тестирования»