Вы заранее знаете, что будете делать 5 проверок одной метрики. Какой простой консервативный способ контролировать общий уровень alpha можно применить, если полноценного процедурного контроля для последовательных проверок нет?
AУвеличить общий уровень
alpha в 5 раз, чтобы компенсировать частые проверки и не пропустить значимый эффект из-за слишком строгого порога.BРазделить трафик на 5 равных частей и поочерёдно запускать одно и то же сравнение групп, считая каждое сравнение независимым.
CИспользовать более строгий порог
alpha / 5 для каждой проверки, чтобы общий риск ложноположительного вывода остался около исходного alpha.DСмотреть
p-value только по выходным дням, считая, что редкие проверки автоматически защищают от роста вероятности ошибки I рода.Правильный ответ. Консервативный способ — использовать порог
alpha / k на каждую из k проверок (поправка Бонферрони), чтобы ограничить общий риск ошибки I рода.Разбор
Множественные просмотры похожи на множественные проверки, поэтому нужно компенсировать рост вероятности случайной значимости. Порог alpha / 5 делает каждую проверку строже и помогает удержать общий риск ошибки I рода. Это может быть слишком консервативно, поэтому в продвинутых дизайнах используют процедуры распределения уровня значимости по проверкам с учётом их числа и времени. Но как простая страховка поправка Бонферрони работает почти всегда.
Проверь себя · 1/2разбор после ответа
В эксперименте вы делали ежедневные проверки. На 3-й день получили
p-value < alpha и остановили тест, но позже выяснилось, что при продолжении до 14 дней результат стал бы незначимым. Какое объяснение наиболее вероятно?Ещё вопросы по теме «Секвенциальное тестирование»
- Команда запускает A/B-тест и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает тест и объявляет победу. В чём главный риск такого подсматривания?
- Что лучше всего описывает правило остановки в контексте последовательного тестирования?
- Аналитик смотрит промежуточные результаты каждый день, но команда заранее зафиксировала длительность: тест идёт 14 дней, и решение принимают только по финальному анализу в конце. Что наиболее корректно про влияние такого подсматривания на ошибку первого рода для основной проверки?
- Что такое `alpha spending` в последовательном тестировании?
- Почему в корректном последовательном тестировании порог для ранней остановки обычно более строгий, чем в конце эксперимента?
- Все вопросы по «Секвенциальное тестирование» →