Question 1

Какое утверждение про `p-value` является корректным?

Accepted Answer

Корректная интерпретация `p-value` всегда условна на предположение, что нулевая гипотеза верна. `p-value` отвечает на вопрос про редкость данных при условии истинной нулевой гипотезы, а не про вероятность гипотез. Из-за этого его легко неверно трактовать как вероятность истинности нулевой гипотезы или вероятность успеха варианта. Для практических решений дополнительно оценивают размер эффекта и его доверительный интервал. Связь `p-value` с бизнес-полезностью эффекта косвенная и требует отдельной интерпретации.

Question 2

В A/B тесте для конверсии вы получили `p-value` = 0.03 при проверке `H0` об отсутствии разницы между группами. Какая интерпретация корректна?

Accepted Answer

`p-value` оценивает совместимость данных с `H0`, а не вероятность истинности самой `H0`. `p-value` вычисляется при предположении, что `H0` верна, и показывает, насколько необычны наблюдаемые данные в этом случае. Он не отвечает на вопрос, насколько вероятна сама `H0`, и не говорит, насколько велик эффект. Для решения обычно сравнивают `p-value` с заранее выбранным уровнем значимости `alpha`.

Question 3

Для разницы конверсий вы построили 95% доверительный интервал: от -0.2% до +1.4%. Что можно сказать о статистической значимости при уровне значимости 0.05 и двусторонней проверке?

Accepted Answer

Если 95% доверительный интервал для разницы включает ноль, при уровне значимости 0.05 двусторонняя проверка обычно не отклоняет нулевую гипотезу. Ноль в интервале означает, что данные совместимы как с небольшим отрицательным, так и с положительным эффектом. Поэтому при двусторонней проверке на уровне значимости 0.05 обычно нет оснований отклонять нулевую гипотезу. При этом интервал всё равно полезен: он показывает диапазон эффектов, которые остаются правдоподобными. Толкование «истинный эффект с вероятностью 95% в интервале» — это частая ошибка байесовской интерпретации.

Question 4

Для uplift выручки на пользователя 95% `confidence interval` получился очень широким: от -20% до +25%. Какое объяснение наиболее вероятно?

Accepted Answer

Широкий доверительный интервал — признак высокой дисперсии метрики и/или малого размера выборки, а не доказательство нуля или значимости. Доверительный интервал отражает, насколько точно мы оценили эффект: чем шире, тем больше неопределённость. На метрике вроде выручки на пользователя дисперсия часто очень высокая (тяжёлые хвосты, выбросы), и при ограниченной выборке интервал растягивается от заметно отрицательных до заметно положительных значений. Это не значит, что эффект «равен нулю» или, наоборот, что результат значим — это значит, что данных пока недостаточно, чтобы что-то уверенно утверждать. Для уточнения оценки обычно либо набирают больше наблюдений, либо снижают дисперсию метрики через `CUPED` или винзоризацию.

Question 5

Вы заранее выбрали `alpha` 0.05. В результате теста получили `p-value` 0.06. Какой вывод корректнее всего?

Accepted Answer

`p-value` больше `alpha` означает, что данных не хватает, чтобы отвергнуть `H0`, но это не равно «эффекта нет». `p-value` 0.06 при `alpha` 0.05 говорит лишь о том, что наблюдаемые данные не выглядят достаточно редкими при `H0`. Это не доказательство того, что эффекта нет: возможно, эксперимент недомощный или эффект просто меньше, чем способен поймать тест. Делать вывод «B хуже» по большому `p-value` неверно: тест не подтверждает направление эффекта в сторону ухудшения. И сам по себе `p-value` чуть выше границы — не повод считать тест «недействительным» и автоматически удваивать выборку.

Проверка гипотез и доверительные интервалы: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты