Q: В A/B-тесте при огромной выборке вы получили `p-value < 0.001`, но рост конверсии составил всего +0.02% при минимально полезном пороге +0.5%. Какое действие наиболее разумно?

Статистическая значимость по `p-value` не равна практической полезности: всегда сверяйте размер эффекта с бизнес-порогом. При больших выборках даже очень маленькие эффекты становятся статистически значимыми. Поэтому важно смотреть на размер эффекта и сравнивать его с бизнес-порогом, а также на доверительный интервал, чтобы понимать диапазон возможных значений. Решение о выкатывании учитывает стоимость внедрения и ожидаемую выгоду. Маленький `p-value` не гарантирует большой эффект, не означает поломки теста и не подтверждает нулевую гипотезу — это лишь сигнал о статистической различимости.

Q: Команда зафиксировала уровень значимости `alpha` 0.05. Что это в первую очередь контролирует в терминах ошибок?

`alpha` задаёт допустимый уровень ошибки I рода — частоту ложных срабатываний при верной `H0`. Если `H0` верна, то при многократном повторении экспериментов правило отклонять её при `p-value < alpha` будет давать ложные срабатывания примерно с частотой `alpha`. При меньшем `alpha` снижается риск ложноположительных выводов, но обычно сложнее обнаружить реальный эффект без увеличения выборки. Ошибка II рода (пропуск эффекта) контролируется не `alpha`, а мощностью теста.

Q: Если ложноположительное решение (ошибка I рода) очень дорого для бизнеса, какое изменение настройки тестирования чаще всего уместно?

Если ложноположительный вывод дорог, обычно снижают `alpha`: это уменьшает риск ошибки I рода, но требует больше наблюдений для прежней мощности. Уровень `alpha` определяет порог, при котором мы считаем эффект значимым. Если ошибка «запустить плохой вариант» болезненна для бизнеса, имеет смысл снизить `alpha` (например, с 0.05 до 0.01) — мы реже будем ошибочно отвергать `H0`. Платой будет рост требуемой выборки: чтобы сохранить ту же мощность при более строгом пороге, нужно больше данных. Игнорирование `alpha`, решение «по знаку эффекта» или признание значимыми результатов с `p-value` > 0.5 — это, наоборот, способы максимально увеличить риск ложноположительных выводов.

Question 1

В A/B-тесте при огромной выборке вы получили `p-value < 0.001`, но рост конверсии составил всего +0.02% при минимально полезном пороге +0.5%. Какое действие наиболее разумно?

Accepted Answer

Статистическая значимость по `p-value` не равна практической полезности: всегда сверяйте размер эффекта с бизнес-порогом. При больших выборках даже очень маленькие эффекты становятся статистически значимыми. Поэтому важно смотреть на размер эффекта и сравнивать его с бизнес-порогом, а также на доверительный интервал, чтобы понимать диапазон возможных значений. Решение о выкатывании учитывает стоимость внедрения и ожидаемую выгоду. Маленький `p-value` не гарантирует большой эффект, не означает поломки теста и не подтверждает нулевую гипотезу — это лишь сигнал о статистической различимости.

Question 2

Команда зафиксировала уровень значимости `alpha` 0.05. Что это в первую очередь контролирует в терминах ошибок?

Accepted Answer

`alpha` задаёт допустимый уровень ошибки I рода — частоту ложных срабатываний при верной `H0`. Если `H0` верна, то при многократном повторении экспериментов правило отклонять её при `p-value < alpha` будет давать ложные срабатывания примерно с частотой `alpha`. При меньшем `alpha` снижается риск ложноположительных выводов, но обычно сложнее обнаружить реальный эффект без увеличения выборки. Ошибка II рода (пропуск эффекта) контролируется не `alpha`, а мощностью теста.

Question 3

Если ложноположительное решение (ошибка I рода) очень дорого для бизнеса, какое изменение настройки тестирования чаще всего уместно?

Accepted Answer

Если ложноположительный вывод дорог, обычно снижают `alpha`: это уменьшает риск ошибки I рода, но требует больше наблюдений для прежней мощности. Уровень `alpha` определяет порог, при котором мы считаем эффект значимым. Если ошибка «запустить плохой вариант» болезненна для бизнеса, имеет смысл снизить `alpha` (например, с 0.05 до 0.01) — мы реже будем ошибочно отвергать `H0`. Платой будет рост требуемой выборки: чтобы сохранить ту же мощность при более строгом пороге, нужно больше данных. Игнорирование `alpha`, решение «по знаку эффекта» или признание значимыми результатов с `p-value` > 0.5 — это, наоборот, способы максимально увеличить риск ложноположительных выводов.

Question 4

Для uplift выручки 95% доверительный интервал равен от +0.1% до +0.3% (0 не входит), но бизнес считает полезным только эффект от +2% и выше. Какой вывод наиболее корректен?

Accepted Answer

Даже при статистической значимости важно сравнивать эффект и доверительный интервал с практическим порогом полезности. Интервал полностью выше 0, значит при уровне значимости 0,05 двусторонняя проверка обычно значима. Но если весь диапазон эффекта лежит ниже бизнес-порога, то практическая ценность сомнительна. Такие случаи часто возникают на больших выборках: статистика уверенно фиксирует малый эффект, который не помогает продукту.

Question 5

Вы меняете уровень значимости с `alpha` 0.05 на `alpha` 0.10, оставляя размер выборки прежним. Какой эффект на ошибки наиболее вероятен?

Accepted Answer

Поднимая `alpha`, мы делаем критерий либеральнее: чаще отвергаем `H0` (растёт риск ошибки I рода), но зато реже её ложно сохраняем (падает ошибка II рода). Уровень значимости и мощность связаны напрямую при фиксированных `n`, дисперсии и эффекте. Чем больше `alpha`, тем шире зона отвержения, поэтому ошибочно отвергать верную `H0` мы будем чаще (рост ошибки I рода), зато верно отвергать ложную `H0` тоже будем чаще (мощность растёт, ошибка II рода падает). Уменьшать обе ошибки одновременно при том же размере выборки нельзя — для этого нужен дополнительный ресурс: больше наблюдений или снижение дисперсии метрики.

Проверка гипотез и доверительные интервалы: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты