Question 1

Как связаны мощность теста `power` и вероятность ошибки II рода `beta`?

Accepted Answer

Мощность теста — это вероятность обнаружить эффект, то есть `1 - beta`. Мощность `power` — шанс правильно отвергнуть `H0`, когда верна `H1`, а `beta` — шанс не отвергнуть `H0` в той же ситуации. Эти события дополняют друг друга, поэтому `power = 1 - beta`. Вероятность ошибки I рода `alpha` — отдельная величина и связывается с `beta` только через дизайн теста (выборка, дисперсия, эффект).

Question 2

Что обозначает параметр `beta` в проверке гипотез?

Accepted Answer

`beta` — это вероятность ошибки II рода, то есть пропустить реальный эффект. `beta` описывает риск не обнаружить эффект, когда он действительно есть (то есть когда `H0` ложна). В бизнесе это часто означает «не выпустить полезную фичу», хотя она улучшает метрику. Типичная ошибка — путать `beta` с `alpha` и считать оба параметра «уровнями значимости».

Question 3

В эксперименте получено `p-value = 0.30` при `alpha = 0.05`. Какое утверждение наиболее корректно?

Accepted Answer

Неудача отвергнуть `H0` не означает, что `H0` истинна: возможно, мощности просто не хватило для обнаружения эффекта. Большое `p-value` означает, что данные не противоречат `H0` настолько, чтобы отвергнуть её при выбранном `alpha`. Это может быть и следствием малого реального эффекта или недостаточной выборки, то есть высокого `beta` и низкой мощности теста. Частая ошибка — интерпретировать «нет значимости» как «эффекта нет» или «вторая версия точно хуже». Корректный вывод осторожнее: пока недостаточно доказательств в пользу эффекта.

Question 4

Два эксперимента имеют одинаковый размер выборки и одинаковый средний эффект, но во втором дисперсия метрики выше. Что обычно происходит с мощностью во втором эксперименте?

Accepted Answer

Большая дисперсия повышает шум и обычно снижает мощность теста при фиксированной выборке. При более высокой дисперсии стандартная ошибка оценки эффекта больше, и тесту сложнее отличить реальный эффект от случайных колебаний. Это повышает вероятность ошибки II рода и снижает мощность. Практический вывод — иногда полезнее стабилизировать метрику или изменить дизайн, чем просто ждать значимости.

Question 5

В огромной выборке вы получили статистически значимый результат: `p-value` меньше уровня значимости, но рост метрики составил всего +0.05 п.п. Что важнее всего проверить дальше?

Accepted Answer

Статистическая значимость (`p-value`) не равна практической полезности эффекта. На больших выборках статистическая значимость отделяется от практической: `p-value` чувствителен к `n` и фиксирует даже эффекты, которые не окупают разработку и поддержку. Поэтому первый шаг после маленького `p-value` — посчитать абсолютную и относительную величину эффекта, оценить экономику фичи и стоимость внедрения. `p-value` не равен вероятности альтернативной гипотезы — это распространённое заблуждение. Долгосрочное накопление и устойчивость на половинах выборки — полезные проверки, но они вторичны по сравнению с базовым вопросом «стоит ли овчинка выделки».

Основы проверки гипотез: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика