Основы проверки гипотез: вопросы для собеседования (часть 3)
Нулевая и альтернативная гипотеза, p-value, уровень значимости, ошибки первого и второго рода — каркас статистического вывода. На собеседовании просят объяснить, что значит p-value = 0.03, можно ли «принять» нулевую гипотезу и в чём отличие одностороннего теста от двустороннего. Без этого блока остальная статистика не имеет смысла.
Вопросы 11–15 из 20
11Когда уместно использовать одностороннюю альтернативу `H1: delta > 0` вместо двусторонней `H1: delta ≠ 0`?
AКогда хочется получить меньший `p-value` без дополнительных условий
BКогда заранее (до данных) интересует только улучшение, а ухудшение не будет интерпретироваться как успех
CКогда `alpha` обязательно равно 0.05
DКогда выборка маленькая и нужно ускорить тест
Ответ: Односторонний тест уместен только при заранее заданном направлении эффекта в `H1`.
Если до эксперимента вы готовы считать успехом только улучшение и ухудшение не подходит, можно формулировать `H1: delta > 0`. Это должно быть принято заранее, иначе возникает риск «подгонки» вывода и рост ошибки I рода. Типичная ошибка — выбирать односторонний тест постфактум, чтобы «добиться значимости».
12При фиксированном размере выборки и фиксированном реальном эффекте что обычно произойдёт с `beta`, если уменьшить `alpha` (сделать критерий строже)?
A`beta` уменьшится, потому что тест станет точнее
B`beta` не изменится, потому что `alpha` и `beta` не связаны
C`beta` увеличится, а `power` уменьшится
D`beta` станет равна `alpha`
Ответ: При фиксированной выборке более строгий `alpha` обычно повышает `beta` и снижает `power`.
Если вы уменьшаете `alpha`, вы реже отклоняете `H0`, то есть снижаете риск ошибки I рода. Но при той же выборке это обычно повышает риск не заметить эффект, то есть `beta` растёт, а `power` падает. Ловушка — думать, что можно одновременно сильно уменьшить и `alpha`, и `beta` без изменения выборки или дизайна.
13Вы проверили 20 независимых гипотез, для каждой использовали `alpha` = 0.05 и предположили, что везде истинна `H0`. Сколько ложных срабатываний (ошибка I рода) вы ожидаете в среднем?
Ответ: При множественных проверках ожидаемое число ложных срабатываний примерно равно `tests * alpha`.
Если `H0` верна во всех тестах, то каждый тест даёт ложноположительный результат с вероятностью около `alpha`. В среднем ожидаем `20 * 0.05 = 1` ошибку I рода. Типичная ловушка — забывать про множественные сравнения и интерпретировать каждую «значимость» как независимое доказательство эффекта.
14Для двустороннего теста при `alpha` = 0.05 построен 95% доверительный интервал для эффекта: [-0.2; 0.1]. Что следует сказать о проверке `H0: delta = 0`?
AНельзя отвергнуть `H0`, потому что 0 лежит внутри 95% интервала
BНужно отвергнуть `H0`, потому что интервал несимметричный
CНужно отвергнуть `H0`, потому что интервал узкий
DРешение зависит только от `beta`, интервал не связан с тестом
Ответ: Если 0 входит в 95% интервал, то при `alpha` = 0.05 обычно нет оснований отвергать `H0` в двустороннем тесте.
Для двусторонних тестов 95% доверительный интервал соответствует `alpha` = 0.05 по логике «интервал исключает ноль → значимость». Здесь 0 находится внутри интервала, значит данные совместимы с нулевым эффектом. Частая ошибка — считать, что любой «узкий» интервал автоматически означает значимость.
15Какое утверждение про `p-value` наиболее верное?
A`p-value` показывает величину эффекта в процентах
B`p-value` показывает, насколько данные (или более экстремальные) совместимы с `H0`
C`p-value` всегда равен `alpha`, если тест корректный
D`p-value` — это вероятность того, что `H0` истинна
Ответ: `p-value` — это про совместимость данных с `H0`, а не про размер эффекта и не про вероятность истинности гипотез.
`p-value` вычисляется при предположении, что `H0` верна, и измеряет «насколько необычны» данные при этом предположении. Он не говорит, большой ли эффект, и не сообщает вероятность гипотез. Типичная ловушка — считать маленький `p-value` доказательством большой пользы или гарантии успеха.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram