Вы провели A/B тест, а затем проверили эффект отдельно в 8 сегментах пользователей и нашли значимость только в одном сегменте на уровне `alpha` 0.05. Какой вывод наиболее корректен?

Question

Карьерник · Accepted Answer

Правильный ответ: Это пример множественных сравнений по сегментам: результат может оказаться случайной ошибкой первого рода, и нужен план коррекции или подтверждающий тест на этом сегменте. Проверка эффектов по множеству сегментов создаёт множественные сравнения и повышает риск ошибок первого рода без корректной процедуры. Сегментация часто полезна, но она умножает число проверок, даже если формально эксперимент один. Если вы ищете «где значимо», то почти гарантированно найдёте случайные всплески при достаточно большом числе сегментов. Поэтому такие результаты лучше трактовать как исследовательские и подтверждать на новой выборке или с корректировками. Заранее заданные сегменты и план анализа уменьшают риск ошибочных выводов.

Разбор

Ещё вопросы по теме «Множественное тестирование»