Проверка гипотез и доверительные интервалы: вопросы для собеседования (часть 2)

p-value, доверительные интервалы, ошибки первого и второго рода — статистический фундамент A/B-тестов. На собеседовании спрашивают, как интерпретировать доверительный интервал, пересекающий ноль, и чем p-value отличается от вероятности истинности гипотезы. Неправильная интерпретация этих понятий — красный флаг для интервьюера.

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED

Вопросы 610 из 20

6Какое утверждение про `p-value` является корректным?
A`p-value` — это вероятность, что `H0` истинна.
B`p-value` — это вероятность получить такие или более экстремальные данные при условии, что `H0` верна.
C`p-value` — это вероятность, что эффект больше 0.
D`p-value` напрямую показывает, насколько эффект полезен для бизнеса.
Ответ: Корректная интерпретация `p-value` всегда условна на предположение, что `H0` верна.

`p-value` отвечает на вопрос про редкость данных при `H0`, а не про вероятность гипотез. Из-за этого его легко неверно трактовать как вероятность истинности `H0` или вероятность успеха варианта. Для практических решений дополнительно оценивают эффект и его `confidence interval`.

7В A/B тесте для конверсии вы получили `p-value` 0.03 при проверке `H0` об отсутствии разницы. Какая интерпретация корректна?
A`p-value` — это вероятность получить такие же или более экстремальные данные, если `H0` верна.
B`p-value` — это вероятность того, что `H0` верна и эффект отсутствует.
C`p-value` — это вероятность того, что вариант B лучше варианта A.
D`p-value` — это размер эффекта в процентах.
Ответ: `p-value` оценивает согласованность данных с `H0`, а не вероятность истинности `H0`.

`p-value` вычисляется при предположении, что `H0` верна, и показывает, насколько необычны наблюдаемые данные в этом случае. Он не отвечает на вопрос, насколько вероятна сама `H0`, и не говорит, насколько велик эффект. Для решения обычно сравнивают `p-value` с заранее выбранным `alpha`.

8Для разницы конверсий вы построили 95% `confidence interval`: от -0.2% до +1.4%. Что можно сказать о статистической значимости при `alpha` 0.05 и двусторонней проверке?
AРазница статистически значима, потому что верхняя граница больше 0.
BРазница не статистически значима, потому что интервал включает 0.
CРазница точно отрицательная, потому что есть отрицательная граница.
DЭто означает 95% вероятность того, что истинный эффект лежит в интервале.
Ответ: Если 95% `confidence interval` для разницы включает 0, то при `alpha` 0.05 двусторонняя проверка обычно не отклоняет `H0`.

Ноль в интервале означает, что данные совместимы как с небольшим отрицательным, так и с положительным эффектом. Поэтому при двустороннем критерии на уровне `alpha` 0.05 обычно нет оснований отклонять `H0`. При этом интервал всё равно полезен: он показывает диапазон эффектов, которые остаются правдоподобными.

9Для uplift выручки на пользователя 95% `confidence interval` получился очень широким: от -20% до +25%. Какое объяснение наиболее вероятно?
AШирокий интервал означает, что эффект точно равен 0.
BШирокий интервал означает, что тест автоматически значим при `alpha` 0.05.
CШирокий интервал означает, что `p-value` всегда будет маленьким.
DВысокая вариативность метрики и/или недостаточный размер выборки дают большую неопределённость оценки.
Ответ: Ширина `confidence interval` отражает неопределённость и обычно растёт при высокой дисперсии и малой выборке.

Выручка на пользователя часто очень вариативна, поэтому для стабильной оценки требуется больше данных. Если выборка мала, стандартная ошибка велика, и 95% `confidence interval` расширяется. В такой ситуации тест может быть статистически неубедительным даже при потенциально полезном эффекте.

10Вы заранее выбрали `alpha` 0.05. В результате теста получили `p-value` 0.06. Какой вывод корректнее всего?
AЭффекта точно нет, можно принимать `H0` как доказанную.
BНедостаточно оснований отклонить `H0` на уровне `alpha` 0.05, но это не доказывает отсутствие эффекта.
CВариант B точно хуже, потому что `p-value` больше 0.05.
DНужно обязательно повторить тест, иначе результат недействителен.
Ответ: Если `p-value` больше `alpha`, обычно не отклоняют `H0`, но это не равно доказательству нулевого эффекта.

`p-value` 0.06 означает, что наблюдаемые данные не достаточно редки при `H0` для порога `alpha` 0.05. Это может быть связано и с малым эффектом, и с недостаточной мощностью. Полезно посмотреть на `confidence interval` и оценить, включает ли он практически важные эффекты.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED