Основы проверки гипотез: вопросы для собеседования (часть 4)
Нулевая и альтернативная гипотеза, p-value, уровень значимости, ошибки первого и второго рода — каркас статистического вывода. На собеседовании просят объяснить, что значит p-value = 0.03, можно ли «принять» нулевую гипотезу и в чём отличие одностороннего теста от двустороннего. Без этого блока остальная статистика не имеет смысла.
Вопросы 16–20 из 20
16Команда получила `p-value` = 0.07 при заранее заявленном `alpha` = 0.05 и предлагает поднять `alpha` до 0.10, чтобы объявить результат значимым. Почему это плохая практика?
AПотому что `alpha` никогда не может быть больше 0.05
BПотому что тогда `beta` обязательно станет равным 0
CПотому что `p-value` автоматически изменится на 0.05
DПотому что `alpha` нужно фиксировать до анализа данных; иначе растёт риск ошибки I рода и выводы становятся недостоверными
Ответ: `alpha` выбирают до просмотра данных, иначе возрастает риск ложноположительных результатов.
Если менять `alpha` после того, как увидели `p-value`, вы фактически подгоняете критерий под результат. Это увеличивает вероятность ошибки I рода и делает заявленную «значимость» несопоставимой с другими тестами. В корректном процессе либо придерживаются заранее выбранного `alpha`, либо планируют дополнительную выборку и пересчитывают дизайн, учитывая `power`.
17В A/B тесте получен эффект +1.2% и `p-value` = 0.06 при `alpha` = 0.05. Какое заключение корректно?
AНужно отвергнуть `H0`, потому что `p-value` близко к 0.05
BНа уровне `alpha` = 0.05 нет оснований отвергнуть `H0`; это не доказывает отсутствие эффекта и может означать недостаточный `power`
CВероятность истинности `H1` равна 94%
DЭффект точно равен нулю, раз `p-value > alpha`
Ответ: Если `p-value ≥ alpha`, `H0` не отвергают, но это не доказательство нулевого эффекта.
Результат 0.06 означает, что при верной `H0` такие данные не слишком редки для порога `alpha` = 0.05. Это может быть как «эффекта нет», так и «эффект есть, но данных мало», то есть высокий `beta` и недостаточный `power`. Типичная ошибка — объявлять «почти значимо» как значимо или трактовать это как доказательство отсутствия эффекта.
18Вы хотите повысить `power` теста с 0.6 до 0.8, сохранив `alpha` и тот же целевой эффект. Какой шаг наиболее напрямую помогает добиться этого?
AУвеличить размер выборки
BУменьшить `alpha` с 0.05 до 0.01
CРазбить трафик на 5 сегментов и анализировать каждый отдельно при том же общем объёме
DСократить окно наблюдения, чтобы быстрее закончить тест, даже если метрика станет более шумной
Ответ: При фиксированном `alpha` самый прямой рычаг для роста `power` — увеличить выборку или снизить шум.
Рост выборки снижает стандартную ошибку и повышает вероятность обнаружить заданный эффект, то есть снижает `beta` и повышает `power`. Уменьшение `alpha` делает критерий строже и обычно снижает `power`. Дополнительное дробление на сегменты или шумная метрика при коротком окне часто ухудшают обнаружение эффекта.
19В решении «выпускать фичу или нет» пусть `H0` означает: фича не улучшает метрику (эффект 0 или хуже). Что такое ошибка I и ошибка II рода в этом контексте?
AОшибка I рода: не выпустить улучшение; ошибка II рода: выпустить ухудшение
BОшибка I рода: принять `H0`, когда `H0` верна; ошибка II рода: отвергнуть `H0`, когда `H0` ложна
CОшибка I рода: выпустить фичу, хотя `H0` верна; ошибка II рода: не выпустить фичу, хотя `H1` верна
DОшибка I и II рода — это просто разные названия `p-value`
Ответ: Ошибка I рода — ложноположительное решение (отвергли верную `H0`), а ошибка II рода — ложноотрицательное (не отвергли ложную `H0`).
Если `H0` верна, а вы всё равно выпускаете фичу, вы совершаете ошибку I рода: «нашли улучшение там, где его нет». Если `H1` верна, но вы не выпускаете улучшение, это ошибка II рода, связанная с `beta`. В практике баланс между рисками ошибок определяет выбор `alpha`, целевой `power` и размер выборки.
20Для двустороннего теста при `alpha` = 0.05 95% доверительный интервал для эффекта равен [0.3; 1.1]. Что это означает для `H0: delta = 0` и связи с `p-value`?
AНельзя отвергнуть `H0`, потому что интервал несимметричный
BНужно отвергнуть `H0`, потому что `alpha` больше нуля
CРешение определяется только `beta`, интервал не связан с `p-value`
DНужно отвергнуть `H0`, так как 0 не входит в 95% интервал; для двустороннего теста это эквивалентно `p-value < alpha`
Ответ: Если 0 не входит в 95% интервал при `alpha` = 0.05, то `H0` обычно отвергают.
95% доверительный интервал для эффекта соответствует двусторонней проверке на уровне `alpha` = 0.05 по правилу «нулевое значение вне интервала → значимость». Раз 0 не попал в интервал, данные противоречат `H0: delta = 0` достаточно сильно, чтобы отвергнуть её. Типичная ловушка — забывать, что связь интервала и теста корректна при согласованных предпосылках и двусторонней постановке.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram