Question 1

Команда получила `p-value` = 0.07 при заранее заявленном уровне значимости 0.05 и предлагает поднять его до 0.10, чтобы объявить результат значимым. Почему это плохая практика?

Accepted Answer

Уровень значимости выбирают до просмотра данных, иначе возрастает риск ложноположительных результатов. Уровень значимости `α` фиксируется до анализа данных и не двигается под результат, иначе фактическая частота ошибок I рода превышает заявленную. Это классическая практика `p-hacking`: когда пороги подгоняют под наблюдаемый `p-value`, реальная вероятность ложного срабатывания оказывается значительно выше декларируемой. Уровень значимости 0.10 в принципе допустим в некоторых задачах (например, в скрининговых исследованиях), просто его нужно объявить заранее. Ни ошибка II рода, ни сам `p-value` от пересмотра порога не пересчитываются автоматически.

Question 2

В A/B тесте получен эффект +1.2% и `p-value` = 0.06 при `alpha` = 0.05. Какое заключение корректно?

Accepted Answer

Если `p-value ≥ alpha`, `H0` не отвергают, но это не доказательство нулевого эффекта — может не хватать мощности теста. Результат 0.06 означает, что при верной `H0` такие данные не слишком редки для порога `alpha = 0.05`. Это может быть как «эффекта нет», так и «эффект есть, но данных мало», то есть высокая вероятность ошибки II рода и недостаточная мощность теста. Типичная ошибка — объявлять «почти значимо» как значимо или трактовать это как доказательство отсутствия эффекта. `p-value` также не равен вероятности истинности `H1`.

Question 3

Вы хотите повысить мощность теста с 0.6 до 0.8, сохранив уровень значимости и тот же целевой эффект. Какой шаг наиболее напрямую помогает добиться этого?

Accepted Answer

При фиксированном уровне значимости самый прямой рычаг для роста мощности — увеличить выборку или снизить шум метрики. Рост выборки снижает стандартную ошибку и повышает вероятность обнаружить заданный эффект, то есть снижает вероятность ошибки II рода и повышает мощность. Уменьшение уровня значимости делает критерий строже и обычно снижает мощность при той же выборке. Дополнительное дробление на сегменты или шумная метрика при коротком окне ухудшают обнаружение эффекта.

Question 4

В решении «выпускать фичу или нет» пусть `H0` означает: фича не улучшает метрику. Что такое ошибка I и ошибка II рода в этом контексте?

Accepted Answer

Ошибка I рода — ложноположительное решение (отвергли верную `H0`), а ошибка II рода — ложноотрицательное (не отвергли ложную `H0`). Если `H0` верна, а вы всё равно выпускаете фичу, это ошибка I рода: «нашли улучшение там, где его нет». Если верна `H1`, но вы не выпустили улучшение, это ошибка II рода, связанная с `beta`. Баланс рисков определяет выбор `alpha`, целевой мощности и размера выборки. Вариант с заменой определений местами — частая путаница, а связь с `p-value` — некорректное упрощение.

Question 5

Для двустороннего теста при `alpha` = 0.05 95% доверительный интервал для эффекта равен [0.3; 1.1]. Что это означает для `H0: delta = 0` и связи с `p-value`?

Accepted Answer

Если ноль не входит в 95% интервал при `alpha` = 0.05, то `H0` обычно отвергают по эквивалентности с двусторонним тестом. Двусторонний тест на уровне `alpha = 0.05` и 95%-й доверительный интервал тесно связаны: если ноль не лежит внутри интервала, `p-value < 0.05` и `H0: delta = 0` отвергается. Здесь интервал [0.3; 1.1] лежит правее нуля, значит `H0` отвергаем. Симметрия границ относительно нуля никакому тесту не требуется — она зависит от точечной оценки. Любое отличие `alpha` от нуля само по себе ничего не значит: важно сравнение `p-value` с `alpha`. Мощность `1 - beta` относится к ошибке II рода и тоже не определяет решение по `H0`.

Основы проверки гипотез: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика