Q: Команда каждый день строит обычный 95% доверительный интервал для разницы метрики и останавливает эксперимент, когда интервал впервые не включает 0. Чем это принципиально отличается от подглядывания по `p-value`?

Это то же `optional stopping`: ежедневная остановка по обычному 95% интервалу раздувает ошибку I рода, если не использовать последовательные границы. Если вы проверяете интервал много раз и останавливаетесь, когда он впервые не включает 0, вы делаете несколько попыток найти «значимость». Это раздувает вероятность ошибки I рода точно так же, как подглядывание по `p-value`. Для частых проверок применяют последовательные методы — например, корректные границы через `alpha spending` или групповой последовательный дизайн. Иначе доля ложных находок будет существенно выше заявленных 5%.

Q: Почему обычный `p-value` становится некорректным, если вы остановили эксперимент «как только `p-value < alpha`»?

Обычный `p-value` рассчитан под фиксированный план; при остановке по сигналу он становится слишком оптимистичным и раздувает ошибку I рода. Классическая проверка устроена так, что при `H0` вероятность получить `p-value < alpha` равна `alpha`, если проверка делается один раз по плану. Если же вы проверяете много раз и останавливаетесь при первом «успехе», шанс случайно получить значимость растёт. Поэтому нужны методы последовательного тестирования или отказ от остановки по промежуточным значениям `p-value`.

Q: В эксперименте может вырасти `crash_rate`, поэтому команда хочет иметь возможность остановить тест при ухудшении, не повышая долю ложноположительных по основной метрике. Что лучше сделать?

Для ранней остановки по рискам нужно заранее заданное правило остановки и корректный подход к промежуточным решениям. Если останавливать тест по «ощущениям», вы получите неуправляемое число ложных тревог. Лучше заранее определить, какие защитные метрики мониторим и при каких условиях выключаем тестовую группу. Для основной метрики используйте фиксированный горизонт или распределение `alpha` в последовательном тестировании, чтобы не наращивать ошибку I рода. Полный перевод трафика и игнорирование `crash_rate` лишают команду контроля за рисками.

Question 1

Аналитик смотрит промежуточные результаты каждый день, но команда заранее зафиксировала длительность: тест идёт 14 дней, и решение принимают только по финальному анализу в конце. Что наиболее корректно про влияние такого подсматривания на ошибку первого рода для основной проверки?

Accepted Answer

Если решение строго принимают только в конце по заранее заданному горизонту и план не меняют, то формальный контроль ошибки первого рода для основной проверки сохраняется. Проблема появляется, когда подсматривание влияет на правило остановки или на выбор метрик, сегментов и длительности теста. Если вы просто наблюдаете, но вывод делаете строго по финальной проверке в заранее заданный момент, то обычная интерпретация `p-value` остаётся корректной. На практике стоит учитывать человеческий фактор: промежуточные цифры часто провоцируют необоснованную досрочную остановку.

Question 2

Заинтересованные стороны хотят еженедельные апдейты и возможность остановить тест раньше, если уже «всё ясно». Что лучше сделать до запуска?

Accepted Answer

Если нужны промежуточные решения, заранее задайте правило остановки и используйте корректный последовательный анализ. Ад-хок остановка по первому `p-value < alpha` превращает процесс в подглядывание и повышает долю ложноположительных результатов. Лучше заранее определить моменты промежуточных проверок и границы для принятия решения. Тогда схема расхода значимости распределит риск ошибки по проверкам, и ранняя остановка будет статистически корректной. Перезапуски того же теста и смягчение `alpha` лишь увеличивают вероятность ложного эффекта без фактического роста качества решений.

Question 3

Команда каждый день строит обычный 95% доверительный интервал для разницы метрики и останавливает эксперимент, когда интервал впервые не включает 0. Чем это принципиально отличается от подглядывания по `p-value`?

Accepted Answer

Это то же `optional stopping`: ежедневная остановка по обычному 95% интервалу раздувает ошибку I рода, если не использовать последовательные границы. Если вы проверяете интервал много раз и останавливаетесь, когда он впервые не включает 0, вы делаете несколько попыток найти «значимость». Это раздувает вероятность ошибки I рода точно так же, как подглядывание по `p-value`. Для частых проверок применяют последовательные методы — например, корректные границы через `alpha spending` или групповой последовательный дизайн. Иначе доля ложных находок будет существенно выше заявленных 5%.

Question 4

Почему обычный `p-value` становится некорректным, если вы остановили эксперимент «как только `p-value < alpha`»?

Accepted Answer

Обычный `p-value` рассчитан под фиксированный план; при остановке по сигналу он становится слишком оптимистичным и раздувает ошибку I рода. Классическая проверка устроена так, что при `H0` вероятность получить `p-value < alpha` равна `alpha`, если проверка делается один раз по плану. Если же вы проверяете много раз и останавливаетесь при первом «успехе», шанс случайно получить значимость растёт. Поэтому нужны методы последовательного тестирования или отказ от остановки по промежуточным значениям `p-value`.

Question 5

В эксперименте может вырасти `crash_rate`, поэтому команда хочет иметь возможность остановить тест при ухудшении, не повышая долю ложноположительных по основной метрике. Что лучше сделать?

Accepted Answer

Для ранней остановки по рискам нужно заранее заданное правило остановки и корректный подход к промежуточным решениям. Если останавливать тест по «ощущениям», вы получите неуправляемое число ложных тревог. Лучше заранее определить, какие защитные метрики мониторим и при каких условиях выключаем тестовую группу. Для основной метрики используйте фиксированный горизонт или распределение `alpha` в последовательном тестировании, чтобы не наращивать ошибку I рода. Полный перевод трафика и игнорирование `crash_rate` лишают команду контроля за рисками.

Секвенциальное тестирование: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты