Вы провели A/B, а затем проверили эффект отдельно в 8 сегментах пользователей и нашли значимость только в одном сегменте на alpha 0.05. Какой вывод наиболее корректен?

AЭффект доказан именно для этого сегмента и не требует дополнительных проверок.
BЭто означает, что общий эффект точно есть, просто он скрывался.
CЗначимость в одном сегменте гарантирует, что остальные сегменты точно без эффекта.
DЭто пример multiple comparisons по сегментам: результат может быть случайным false positives, и нужен план коррекции или подтверждающий тест на этом сегменте.
Правильный ответ. Проверка эффектов по множеству сегментов создаёт multiple comparisons и повышает риск false positives без корректной процедуры.

Разбор

Сегментация часто полезна, но она умножает число проверок, даже если формально эксперимент один. Если вы ищете «где значимо», то почти гарантированно найдёте случайные всплески при достаточно большом числе сегментов. Поэтому такие результаты лучше трактовать как исследовательские и подтверждать на новой выборке или с корректировками. Заранее заданные сегменты и план анализа уменьшают риск ошибочных выводов.

Проверь себя · 1/3разбор после ответа
В одном эксперименте вы смотрите 25 продуктовых метрик и хотите составить список метрик, которые стоит изучить глубже, понимая что часть сигналов может оказаться ложной. Какую коррекцию чаще выбирают и почему?
Тренировать A/B в Telegram

Ещё вопросы по теме «Множественное тестирование»