Question 1

Когда уместно использовать одностороннюю альтернативу `H1: delta > 0` вместо двусторонней `H1: delta ≠ 0`?

Accepted Answer

Односторонний тест уместен только при заранее заданном направлении эффекта в `H1`. Одностороннюю альтернативу выбирают, когда направление эффекта обосновано до сбора данных и противоположное направление вас содержательно не интересует. Например, при тестировании оптимизации скорости загрузки имеет смысл смотреть только на ускорение — замедление не считаем успехом. Выбор односторонней альтернативы постфактум, чтобы получить меньший `p-value`, — нарушение протокола и раздувание ошибки I рода. Размер выборки и симметрия `H0` к выбору альтернативы отношения не имеют.

Question 2

При фиксированном размере выборки и фиксированном реальном эффекте что обычно произойдёт с вероятностью ошибки II рода (`beta`), если уменьшить порог значимости (`alpha`), сделав критерий строже?

Accepted Answer

При фиксированной выборке более строгий порог значимости обычно повышает вероятность ошибки II рода и снижает мощность теста. Когда вы уменьшаете порог значимости, вы реже отклоняете нулевую гипотезу, то есть снижаете риск ошибки I рода. Но при том же размере выборки это обычно повышает риск не заметить настоящий эффект — вероятность ошибки II рода (`beta`) растёт, а мощность теста (`power = 1 − beta`) падает. Ловушка — думать, что можно одновременно сильно уменьшить и `alpha`, и `beta` без увеличения выборки или улучшения дизайна. На практике этот компромисс лечится ростом `n` или снижением дисперсии метрики.

Question 3

Вы проверили 20 независимых гипотез, для каждой использовали уровень значимости 0.05 и предположили, что везде истинна `H0`. Сколько ложных срабатываний (ошибка I рода) ожидается в среднем?

Accepted Answer

При множественных проверках ожидаемое число ложных срабатываний примерно равно `tests * alpha`. Если `H0` истинна для всех 20 независимых тестов и в каждом уровень значимости равен 0.05, число ложных срабатываний — биномиальная случайная величина с математическим ожиданием `n * α = 20 * 0.05 = 1`. Это базовая интуиция за поправкой Бонферрони. Значение 0.05 — это вероятность ошибки I рода на один тест, а не ожидаемое количество ошибок в серии. 0.10 не следует ни из какой формулы. Около 5 ошибок (20 / 4) — типичная путаница между уровнем значимости и какой-то другой долей.

Question 4

Для двустороннего теста при уровне значимости 0.05 построен 95% доверительный интервал для эффекта: [-0.2; 0.1]. Что следует сказать о проверке H0: delta = 0?

Accepted Answer

Если 0 входит в 95% доверительный интервал, при уровне значимости 0.05 двусторонняя проверка обычно не отвергает H0. Для двусторонних тестов 95% доверительный интервал соответствует уровню значимости 0.05 по логике «интервал исключает ноль → значимость». Здесь 0 находится внутри интервала, значит данные совместимы с нулевым эффектом и оснований отвергать H0 обычно нет. Узость или несимметричность интервала сами по себе ничего не говорят о значимости — важна именно граница пересечения с нулём. Мощность связана с риском не заметить эффект, но решение по двустороннему тесту считается через интервал и уровень значимости, а не отдельно.

Question 5

Какое утверждение про `p-value` наиболее верное?

Accepted Answer

`p-value` — это про совместимость данных с нулевой гипотезой `H0`, а не про размер эффекта или вероятность гипотез. `p-value` вычисляется при предположении, что нулевая гипотеза верна, и измеряет «насколько необычны» данные при этом предположении. Он не говорит о величине эффекта и не сообщает вероятность гипотез. Типичная ловушка — считать маленький `p-value` доказательством большой пользы или гарантии успеха. Ещё одна ошибка — отождествлять `p-value` с уровнем значимости `alpha`: `alpha` фиксируется заранее как порог, а `p-value` зависит от данных.

Основы проверки гипотез: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика