Вы провели A/B тест, а затем проверили эффект отдельно в 8 сегментах пользователей и нашли значимость только в одном сегменте на уровне alpha 0.05. Какой вывод наиболее корректен?

AЭффект однозначно доказан именно для этого сегмента и не требует никаких дополнительных проверок, корректировок или подтверждающего эксперимента на новой выборке
BЭто пример множественных сравнений по сегментам: результат может оказаться случайной ошибкой первого рода, и нужен план коррекции или подтверждающий тест на этом сегменте
CЭто означает, что общий эффект по всем пользователям точно есть, просто он скрывался средним и проявился только при разрезе по конкретному пользовательскому сегменту
DЗначимость в одном сегменте автоматически гарантирует, что во всех остальных сегментах эффекта точно нет, и дополнительные подтверждающие проверки уже не нужны
Правильный ответ. Проверка эффектов по множеству сегментов создаёт множественные сравнения и повышает риск ошибок первого рода без корректной процедуры.

Разбор

Сегментация часто полезна, но она умножает число проверок, даже если формально эксперимент один. Если вы ищете «где значимо», то почти гарантированно найдёте случайные всплески при достаточно большом числе сегментов. Поэтому такие результаты лучше трактовать как исследовательские и подтверждать на новой выборке или с корректировками. Заранее заданные сегменты и план анализа уменьшают риск ошибочных выводов.

Проверь себя · 1/3разбор после ответа
Вы настроили контроль FDR (доля ложных открытий) на уровне 0.1 и после процедуры Бенджамини–Хохберга получили 20 значимых сравнений. Как корректнее интерпретировать это число?
Тренировать A/B в Telegram

Ещё вопросы по теме «Множественное тестирование»