Question 1

Как корректно интерпретировать значение `p-value` = 0.03 в проверке статистических гипотез?

Accepted Answer

`p-value` — это вероятность получить такие же или более экстремальные данные при условии, что `H0` верна. `p-value` отвечает на вопрос: насколько наблюдаемые данные совместимы с `H0`. Это не вероятность истинности `H0` и не оценка размера эффекта. Типичная ловушка на интервью — читать `p-value` как «вероятность ошибки» или как «вероятность того, что `H1` верна». На самом деле он лишь оценивает совместимость данных с нулевой гипотезой.

Question 2

В A/B тесте вы сравниваете конверсию между вариантами A и B. Какая формулировка `H0`/`H1` корректна для двусторонней проверки отличий?

Accepted Answer

Обычно `H0` фиксирует отсутствие эффекта, а `H1` — наличие отличия в любую сторону. Нулевая гипотеза `H0` фиксирует «нет разницы» между вариантами, а альтернативная `H1` задаёт, что разница есть. Для двусторонней проверки в `H1` ставят знак `≠`, потому что интересуют и рост, и падение метрики. Односторонние формулировки со знаками `>` или `≤` отвечают на другой вопрос. Подменять гипотезы правилом сравнения `p-value` с уровнем значимости тоже неверно: это правило решения, а не сами гипотезы.

Question 3

Что означает выбор уровня значимости `alpha` = 0.01 в терминах ошибки I рода?

Accepted Answer

Уровень значимости `alpha` контролирует риск ошибки I рода — то есть вероятность ложноположительного вывода при верной нулевой гипотезе. `alpha` — это заранее выбранный порог для решения об отклонении нулевой гипотезы. Он интерпретируется как верхняя граница вероятности отвергнуть гипотезу, когда она на самом деле верна. Частая путаница — считать `alpha` вероятностью истинности гипотезы или путать его с вероятностью ошибки II рода. На практике низкое `alpha` снижает долю ложных срабатываний, но при том же размере выборки увеличивает риск пропустить реальный эффект.

Question 4

При уровне значимости 0.05 получено `p-value` = 0.04. Какое решение соответствует стандартному правилу проверки гипотез?

Accepted Answer

Классическое правило: если `p-value` меньше уровня значимости, нулевую гипотезу отвергают. Уровень значимости задаётся заранее как допустимая вероятность ошибки I рода. Если `p-value` меньше этого порога, данные считаются достаточно несовместимыми с нулевой гипотезой и её отвергают. Менять порог «под результат» нельзя — это раздувает риск ложных находок. Знание мощности (вероятности обнаружить эффект) полезно для планирования, но не требуется для самого правила решения.

Question 5

При прочих равных (тот же эффект и тот же уровень значимости) что обычно происходит с мощностью теста, если увеличить размер выборки?

Accepted Answer

Большая выборка обычно повышает мощность теста, так как снижает неопределённость оценки эффекта. При росте размера выборки стандартная ошибка оценки эффекта обычно уменьшается, и тест лучше отличает реальный эффект от случайного шума. Это снижает вероятность ошибки II рода и повышает мощность при фиксированном уровне значимости. Типичная ловушка — считать, что раз уровень значимости фиксирован, то и чувствительность теста не меняется. На самом деле уровень значимости задаёт допустимую долю ложных срабатываний, а мощность зависит ещё и от размера выборки и величины эффекта.

Вопросы по теме «Основы проверки гипотез»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика