Вы провели A/B, а затем проверили эффект отдельно в 8 сегментах пользователей и нашли значимость только в одном сегменте на alpha 0.05. Какой вывод наиболее корректен?
AЭффект доказан именно для этого сегмента и не требует дополнительных проверок.
BЭто означает, что общий эффект точно есть, просто он скрывался.
CЗначимость в одном сегменте гарантирует, что остальные сегменты точно без эффекта.
DЭто пример
multiple comparisons по сегментам: результат может быть случайным false positives, и нужен план коррекции или подтверждающий тест на этом сегменте.Правильный ответ. Проверка эффектов по множеству сегментов создаёт
multiple comparisons и повышает риск false positives без корректной процедуры.Разбор
Сегментация часто полезна, но она умножает число проверок, даже если формально эксперимент один. Если вы ищете «где значимо», то почти гарантированно найдёте случайные всплески при достаточно большом числе сегментов. Поэтому такие результаты лучше трактовать как исследовательские и подтверждать на новой выборке или с корректировками. Заранее заданные сегменты и план анализа уменьшают риск ошибочных выводов.
Проверь себя · 1/3разбор после ответа
В одном эксперименте вы смотрите 25 продуктовых метрик и хотите составить список метрик, которые стоит изучить глубже, понимая что часть сигналов может оказаться ложной. Какую коррекцию чаще выбирают и почему?
Ещё вопросы по теме «Множественное тестирование»
- Вы запускаете `A/B/n`-эксперимент: контроль и 3 варианта интерфейса. Что принципиально меняется по сравнению с `A/B` в части риска `false positives`, если проверять каждое сравнение на `alpha` 0.05 без коррекции?
- В `A/B/n` у вас контроль A и варианты B и C, и вы хотите выбрать любой вариант, который статистически лучше контроля по одной основной метрике. Какие проверки логично считать одной семьёй для коррекции `multiple comparisons`?
- Команда сравнивает 8 вариантов с контролем и для каждого теста использует `alpha` 0.05 без коррекции. Что происходит с вероятностью получить хотя бы один `false positives` среди всех сравнений?
- Что означает контроль `family-wise error` (суммарная ошибка первого рода) в задаче `multiple comparisons`?
- Какое утверждение верно про коррекцию `Bonferroni` при `multiple comparisons`?
- Все вопросы по «Множественное тестирование» →