Q: Вы смотрите 20 метрик и для каждой проверяете гипотезу на уровне значимости 0.05, объявляя успехом любую метрику, где `p-value < 0.05`. Какой риск возрастает сильнее всего?

Множественные проверки увеличивают общий риск ошибки I рода по набору, если не контролировать его на уровне всех гипотез. Даже если каждая отдельная проверка имеет уровень значимости 0.05, при большом числе метрик растёт вероятность хотя бы одного ложноположительного результата по всему набору. Это может привести к ошибочному выводу об успехе на основе случайного шума. Чтобы этого избежать, заранее фиксируют основные и страховочные метрики и при необходимости применяют поправки на множественные сравнения. Риск ошибки II рода тут не уходит в ноль, ширина доверительных интервалов от числа сравнений сама по себе не уменьшается, а `p-value` ничего не говорит о вероятности истинности `H0`.

Q: Для прироста конверсии 95%-й доверительный интервал равен от -1% до +5%, а минимально полезный эффект для бизнеса начинается с +2%. Что это означает для решения?

Если доверительный интервал включает и 0, и практически важные значения, вывод обычно остаётся неопределённым. Интервал от -1% до +5% говорит, что данные совместимы с разными сценариями: от небольшого ухудшения до заметного улучшения. При таком интервале нельзя уверенно принять решение по практической полезности. Часто нужно больше наблюдений, снижение дисперсии метрики или более точная формулировка гипотезы и критериев успеха.

Q: Для двусторонней проверки на уровне значимости 0.05 какое утверждение обычно верно при корректно построенном 95% доверительном интервале для разницы B − A?

При корректно построенном 95% доверительном интервале для двусторонней проверки `H0`: эффект = 0 отвергается на уровне 5% тогда и только тогда, когда интервал не включает 0. Двусторонний тест на уровне 0.05 и 95% доверительный интервал — это две стороны одного и того же вычисления. Если 0 не попал в интервал, `p-value` для гипотезы «эффект = 0» меньше 0.05, и наоборот. Поэтому утверждение про равенство `p-value` ширине интервала бессмысленно: ширина в единицах метрики, а `p-value` — вероятность. Утверждение «вероятность нулевого эффекта 95%» путает уровень доверия с вероятностью гипотезы и не соответствует частотной интерпретации интервалов.

Question 1

Как корректнее всего интерпретировать 95% доверительный интервал в частотной статистике?

Accepted Answer

Частотный 95% доверительный интервал — это свойство процедуры в повторениях, а не вероятность для одного фиксированного интервала. В частотной трактовке параметр фиксирован, а случайны данные и построенный интервал. Поэтому говорить о 95% вероятности для конкретного интервала некорректно в строгом смысле. Правильная интуиция: процедура построения интервала в среднем покрывает истинный эффект в 95% повторов; вероятность относится к процедуре, а не к одному интервалу на конкретной выборке.

Question 2

Какая ситуация лучше всего подходит для выбора `z-test` вместо `t-test` в типичном A/B тестировании?

Accepted Answer

`z-test` обычно выбирают для разницы долей при больших выборках, а `t-test` — для средних с неизвестной дисперсией. Двухпропорционный `z-test` хорошо работает для конверсий: на больших выборках разность долей приближается к нормальному распределению, а его параметры известны. `t-test` уместен для средних, особенно при небольших `n` и неизвестной дисперсии. Таблицы частот по нескольким категориям сравнивают через хи-квадрат, а сравнение медиан при выбросах — это область непараметрических тестов вроде Манн–Уитни. Поэтому именно «доли на больших выборках» — типичный сценарий для `z-test`.

Question 3

Вы смотрите 20 метрик и для каждой проверяете гипотезу на уровне значимости 0.05, объявляя успехом любую метрику, где `p-value < 0.05`. Какой риск возрастает сильнее всего?

Accepted Answer

Множественные проверки увеличивают общий риск ошибки I рода по набору, если не контролировать его на уровне всех гипотез. Даже если каждая отдельная проверка имеет уровень значимости 0.05, при большом числе метрик растёт вероятность хотя бы одного ложноположительного результата по всему набору. Это может привести к ошибочному выводу об успехе на основе случайного шума. Чтобы этого избежать, заранее фиксируют основные и страховочные метрики и при необходимости применяют поправки на множественные сравнения. Риск ошибки II рода тут не уходит в ноль, ширина доверительных интервалов от числа сравнений сама по себе не уменьшается, а `p-value` ничего не говорит о вероятности истинности `H0`.

Question 4

Для прироста конверсии 95%-й доверительный интервал равен от -1% до +5%, а минимально полезный эффект для бизнеса начинается с +2%. Что это означает для решения?

Accepted Answer

Если доверительный интервал включает и 0, и практически важные значения, вывод обычно остаётся неопределённым. Интервал от -1% до +5% говорит, что данные совместимы с разными сценариями: от небольшого ухудшения до заметного улучшения. При таком интервале нельзя уверенно принять решение по практической полезности. Часто нужно больше наблюдений, снижение дисперсии метрики или более точная формулировка гипотезы и критериев успеха.

Question 5

Для двусторонней проверки на уровне значимости 0.05 какое утверждение обычно верно при корректно построенном 95% доверительном интервале для разницы B − A?

Accepted Answer

При корректно построенном 95% доверительном интервале для двусторонней проверки `H0`: эффект = 0 отвергается на уровне 5% тогда и только тогда, когда интервал не включает 0. Двусторонний тест на уровне 0.05 и 95% доверительный интервал — это две стороны одного и того же вычисления. Если 0 не попал в интервал, `p-value` для гипотезы «эффект = 0» меньше 0.05, и наоборот. Поэтому утверждение про равенство `p-value` ширине интервала бессмысленно: ширина в единицах метрики, а `p-value` — вероятность. Утверждение «вероятность нулевого эффекта 95%» путает уровень доверия с вероятностью гипотезы и не соответствует частотной интерпретации интервалов.

Проверка гипотез и доверительные интервалы: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты