Проверка гипотез и доверительные интервалы: вопросы для собеседования (часть 3)
p-value, доверительные интервалы, ошибки первого и второго рода — статистический фундамент A/B-тестов. На собеседовании спрашивают, как интерпретировать доверительный интервал, пересекающий ноль, и чем p-value отличается от вероятности истинности гипотезы. Неправильная интерпретация этих понятий — красный флаг для интервьюера.
Вопросы 11–15 из 20
11В A/B тесте при огромной выборке вы получили `p-value` < 0.001, но рост конверсии составил всего +0.02% при минимально полезном пороге +0.5%. Какое действие наиболее разумно?
AСчитать результат статистически значимым, но оценить практическую полезность и бизнес-эффект, потому что эффект может быть слишком мал.
BСразу выкатывать изменение, потому что маленький `p-value` гарантирует большой эффект.
CИгнорировать результат, потому что при `p-value` < 0.001 тест точно сломан.
DСделать вывод, что `H0` верна, потому что эффект слишком мал.
Ответ: Статистическая значимость по `p-value` не равна практической полезности эффекта.
При больших выборках даже очень маленькие эффекты могут стать статистически значимыми. Поэтому важно смотреть на размер эффекта и сравнивать его с бизнес-порогом, а также на `confidence interval`, чтобы понимать диапазон возможных значений. Решение о выкатывании должно учитывать стоимость внедрения и ожидаемую выгоду.
12Команда зафиксировала уровень значимости `alpha` 0.05. Что это в первую очередь контролирует в терминах ошибок?
AВероятность `Type II error` (ложноотрицательного решения)
BВероятность того, что вариант B лучше варианта A
CСреднюю ширину 95% `confidence interval`
DВероятность `Type I error` (ложноположительного решения) при верной `H0`
Ответ: `alpha` задаёт допустимый уровень `Type I error` при принятии решения отклонять `H0`.
Если `H0` верна, то при многократном повторении экспериментов правило отклонять `H0` при `p-value < alpha` будет давать ложные срабатывания примерно с частотой `alpha`. При меньшем `alpha` меньше риск ложноположительных выводов, но обычно сложнее обнаружить реальные эффекты без увеличения выборки.
13Если ложноположительное решение (`Type I error`) очень дорого для бизнеса, какое изменение настройки тестирования чаще всего уместно?
AСнизить `alpha`, чтобы уменьшить риск `Type I error`, понимая, что может потребоваться больше данных для той же мощности.
BПовысить `alpha`, чтобы быстрее находить значимые результаты.
CИгнорировать `alpha` и смотреть только на знак эффекта.
DСчитать значимым любой результат, где `p-value` больше 0.5.
Ответ: Меньший `alpha` снижает риск `Type I error`, но обычно увеличивает требования к размеру выборки для обнаружения эффекта.
Когда цена ложного запуска высока, разумно сделать критерий строгим и уменьшить вероятность ложноположительных выводов. Это часто означает снижение `alpha` и более осторожные решения. Компромисс в том, что растёт риск `Type II error` при фиксированной выборке, поэтому может потребоваться увеличить длительность эксперимента или размер выборки.
14Для uplift выручки 95% `confidence interval` равен от +0.1% до +0.3% (0 не входит), но бизнес считает полезным только эффект от +2% и выше. Какой вывод наиболее корректен?
AЭффект большой и точно окупится, потому что интервал не включает 0.
BЭффект статистически незначим, потому что он меньше 2%.
CЭффект статистически значим, но по интервалу видно, что он существенно ниже практического порога полезности.
DНельзя сделать никаких выводов, потому что интервал узкий.
Ответ: Даже при статистической значимости важно сравнивать эффект и `confidence interval` с практическим порогом.
Интервал полностью выше 0, значит для `alpha` 0.05 двусторонняя проверка обычно значима. Но если весь диапазон эффекта лежит ниже бизнес-порога, то практическая ценность сомнительна. Такие случаи часто возникают на больших выборках: статистика уверенно фиксирует малый эффект, который не помогает продукту.
15Вы меняете уровень значимости с `alpha` 0.05 на `alpha` 0.10, оставляя размер выборки прежним. Какой эффект на ошибки наиболее вероятен?
AРиск `Type I error` вырастет, а риск `Type II error` обычно снизится (мощность вырастет).
BРиск `Type I error` снизится, а риск `Type II error` вырастет.
CОбе ошибки гарантированно станут равны 0.
DНичего не изменится, потому что `alpha` влияет только на `confidence interval`.
Ответ: Повышение `alpha` делает критерий менее строгим: растёт риск `Type I error`, а риск `Type II error` обычно снижается (мощность растёт).
Более высокий `alpha` означает более мягкий порог для отклонения `H0`. Это повышает вероятность ложноположительных решений, но увеличивает шанс обнаружить реальный эффект при тех же данных. Поэтому `alpha` выбирают, исходя из стоимости ошибок и целей эксперимента.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram