Основы проверки гипотез: вопросы для собеседования (часть 2)

Нулевая и альтернативная гипотеза, p-value, уровень значимости, ошибки первого и второго рода — каркас статистического вывода. На собеседовании просят объяснить, что значит p-value = 0.03, можно ли «принять» нулевую гипотезу и в чём отличие одностороннего теста от двустороннего. Без этого блока остальная статистика не имеет смысла.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 610 из 20

6Как связаны `beta` и `power`?
A`power = beta`
B`power = 1 - beta`
C`beta = 1 - alpha`
D`power = alpha / beta`
Ответ: `power` — это вероятность обнаружить эффект, то есть `1 - beta`.

`power` показывает шанс правильно отвергнуть `H0`, когда `H1` верна (эффект реально существует). Поэтому `power` дополняет `beta` до 1: `power = 1 - beta`. Частая ошибка — думать, что `power` зависит только от `alpha`, игнорируя выборку и дисперсию.

7Что такое `beta` в проверке гипотез?
AВероятность ошибки II рода: не отвергнуть ложную `H0`
BВероятность ошибки I рода: отвергнуть верную `H0`
CПорог для сравнения с `p-value` вместо `alpha`
DВероятность того, что `H1` верна
Ответ: `beta` — это вероятность `ошибка II рода`, то есть пропустить реальный эффект.

`beta` описывает риск не обнаружить эффект, когда он действительно есть (то есть когда `H0` ложна). В бизнесе это часто означает «не выпустить полезную фичу», хотя она улучшает метрику. Типичная ошибка — путать `beta` с `alpha` и считать оба параметра «уровнями значимости».

8В эксперименте получено `p-value` = 0.30 при `alpha` = 0.05. Какое утверждение корректно?
A`H0` доказана, эффект точно равен нулю
BЭффект точно отсутствует, потому что `p-value` большой
CВариант B точно хуже, раз нет значимости
DНет оснований отвергнуть `H0` на уровне `alpha`, но это не доказательство отсутствия эффекта; возможно, низкий `power`
Ответ: Неудача отвергнуть `H0` не означает, что `H0` истинна.

Большой `p-value` означает, что данные не противоречат `H0` настолько, чтобы отвергнуть её при выбранном `alpha`. Но это может быть и следствием малого эффекта или недостаточной выборки, то есть высокого `beta` и низкого `power`. Частая ошибка — интерпретировать «нет значимости» как «эффекта нет».

9Два эксперимента имеют одинаковый размер выборки и одинаковый средний эффект, но во втором дисперсия метрики выше. Что обычно происходит с `power` во втором эксперименте?
A`power` увеличивается, потому что данных больше
B`power` не меняется, потому что эффект тот же
C`power` уменьшается, потому что сигнал труднее отличить от шума
D`power` становится равным `alpha`
Ответ: Большая дисперсия повышает шум и обычно снижает `power` при фиксированной выборке.

При более высокой дисперсии стандартная ошибка оценки эффекта больше, и тесту сложнее отличить реальный эффект от случайных колебаний. Это повышает вероятность `beta` и снижает `power`. Практический вывод — иногда полезнее стабилизировать метрику или изменить дизайн, чем просто «ждать значимости».

10В огромной выборке вы получили статистически значимый результат: `p-value < alpha`, но рост метрики составил всего +0.05 п.п. Что важнее всего проверить дальше?
AПрактическую значимость: окупается ли эффект и важен ли он для продукта, несмотря на `p-value`
BЧто `p-value` равен вероятности того, что `H1` верна
CЧто нужно всегда уменьшать `alpha`, если эффект маленький
DЧто эффект обязан быть большим, раз он значим
Ответ: Статистическая значимость (`p-value`) не равна практической полезности эффекта.

При большой выборке даже очень маленький эффект может стать статистически значимым. Поэтому важно оценить размер эффекта, бизнес-ценность, риски внедрения и влияние на сегменты. Типичная ловушка — принимать решение только по `p-value`, игнорируя практическую значимость.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей