Проверка гипотез и доверительные интервалы: вопросы для собеседования (часть 4)
p-value, доверительные интервалы, ошибки первого и второго рода — статистический фундамент A/B-тестов. На собеседовании спрашивают, как интерпретировать доверительный интервал, пересекающий ноль, и чем p-value отличается от вероятности истинности гипотезы. Неправильная интерпретация этих понятий — красный флаг для интервьюера.
Вопросы 16–20 из 20
16Как корректнее всего интерпретировать 95% `confidence interval` в частотной статистике?
AС вероятностью 95% истинный эффект лежит внутри этого конкретного интервала.
B95% наблюдений обязательно попадают в этот интервал.
C95% пользователей в тесте имеют эффект, лежащий в интервале.
DЕсли повторять эксперимент много раз и каждый раз строить 95% `confidence interval`, то примерно 95% таких интервалов будут содержать истинный эффект.
Ответ: Частотный 95% `confidence interval` — это свойство процедуры в повторениях, а не «вероятность» для одного фиксированного интервала.
В частотной трактовке параметр фиксирован, а случайны данные и построенный интервал. Поэтому говорить о 95% вероятности для конкретного интервала некорректно в строгом смысле. Правильная интуиция: процедура построения интервала в среднем покрывает истинный эффект в 95% повторов.
17Какая ситуация лучше всего подходит для выбора `z-test` вместо `t-test` в типичном A/B тестировании?
AСравнение средних при неизвестной дисперсии и небольшом размере выборки.
BСравнение долей (например, конверсии) в двух группах на больших выборках.
CСравнение распределений по нескольким категориям в таблице частот.
DСравнение среднего чека при сильных выбросах: важно подумать про робастные метрики/подходы, а не «единственный правильный тест».
Ответ: `z-test` часто используют для сравнения долей, тогда как `t-test` — для сравнения средних.
Для конверсии (успех/неуспех) естественная модель — пропорции, и на больших выборках часто применяют двухпропорционный `z-test`. Для средних значений (например, чек) чаще берут `t-test`, потому что дисперсия обычно неизвестна. Для категориальных таблиц частот обычно выбирают `chi-square`.
18Вы смотрите 20 метрик и для каждой делаете проверку на уровне `alpha` 0.05, а затем объявляете успехом любую метрику, где `p-value < 0.05`. Какой риск возрастает сильнее всего?
AРиск `Type II error` (пропустить эффект) становится нулевым.
BШирина каждого 95% `confidence interval` автоматически станет меньше.
CВероятность того, что `H0` истинна, увеличится.
DРиск `Type I error` на уровне набора метрик возрастает, и вы чаще получите ложноположительную находку.
Ответ: Множественные проверки увеличивают общий риск `Type I error`, если не контролировать его на уровне набора гипотез.
Даже если каждая проверка имеет `alpha` 0.05, при большом числе метрик растёт вероятность хотя бы одного ложноположительного результата. Это может привести к выводу об успехе на основе случайного шума. Практика — заранее фиксировать основные метрики и, при необходимости, применять подходы контроля множественных проверок.
19Для uplift конверсии 95% `confidence interval` равен от -1% до +5%, а минимально полезный эффект для бизнеса начинается с +2%. Что это означает для решения?
AРезультат однозначно отрицательный, поэтому изменения точно вредны.
BРезультат однозначно положительный и полезный, потому что верхняя граница +5%.
CРезультат неопределённый: интервал включает и вред, и практически полезный эффект, поэтому стоит увеличить выборку/длительность теста или снизить вариативность метрики.
DЭто гарантирует, что `p-value` будет меньше `alpha` 0.05.
Ответ: Если `confidence interval` включает и 0, и практически важные значения, то вывод обычно остаётся неопределённым.
Интервал от -1% до +5% говорит, что данные совместимы с разными сценариями: от небольшого ухудшения до заметного улучшения. При таком интервале нельзя уверенно принять решение по практической полезности. Часто нужно больше наблюдений, снижение вариативности метрики или более точная формулировка гипотезы и критериев успеха.
20Для двусторонней проверки на уровне `alpha` 0.05 какое утверждение обычно верно при корректно построенном 95% `confidence interval` для разницы (B − A)?
AЕсли интервал включает 0, то `p-value` всегда ровно 0.05.
BШирина интервала напрямую равна `p-value`.
CЕсли интервал не включает 0, то `p-value` будет меньше 0.05.
DЕсли интервал не включает 0, это НЕ означает 95% вероятность того, что B лучше A.
Ответ: Для двусторонней проверки 95% `confidence interval` без 0 обычно соответствует `p-value < 0.05`.
95% `confidence interval` и тест значимости связаны: если ноль вне интервала, то на уровне `alpha` 0.05 двусторонний тест обычно отклоняет `H0`. Это не означает, что вероятность истинного эффекта равна 95%, но помогает связать выводы из интервала и `p-value`. Интервал при этом даёт больше информации, чем одно число `p-value`.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram