Вопросы по теме «Проверка гипотез и доверительные интервалы»

p-value, доверительные интервалы, ошибки первого и второго рода — статистический фундамент A/B-тестов. На собеседовании спрашивают, как интерпретировать доверительный интервал, пересекающий ноль, и чем p-value отличается от вероятности истинности гипотезы. Неправильная интерпретация этих понятий — красный флаг для интервьюера.

Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED

Вопросы 15 из 20

1У вас есть таблица с количеством пользователей по вариантам A/B и по категориям (например, 4 источника трафика). Вы хотите проверить, что распределение категорий одинаковое в A и B. Какой тест чаще всего используют?
A`t-test`
B`z-test` для среднего чека
CТест на разницу медиан как единственный правильный
D`chi-square` для проверки независимости в таблице сопряжённости
Ответ: Для сравнения распределений категорий между группами обычно используют `chi-square` тест независимости.

Когда данные представлены в виде таблицы частот по категориям, естественная постановка — проверить независимость признаков (вариант и категория). `χ² (chi-square)` позволяет оценить, есть ли статистически значимые различия в распределениях. Это полезно, например, для проверки корректности рандомизации или для анализа категориальных исходов.

2Почему в продуктовых A/B тестах часто полезнее смотреть не только на `p-value`, но и на `confidence interval`?
A`p-value` всегда показывает размер эффекта, поэтому интервал нужен только для красоты.
B`confidence interval` показывает диапазон правдоподобных эффектов и помогает оценить практическую значимость, а `p-value` в основном отвечает про статистическую значимость.
C`confidence interval` гарантирует, что эффект будет таким же при выкатывании в прод.
D`confidence interval` заменяет необходимость выбирать `alpha`.
Ответ: `confidence interval` добавляет контекст о величине эффекта и неопределённости, который `p-value` сам по себе не даёт.

`p-value` отвечает на вопрос, насколько данные несовместимы с `H0` при выбранном `alpha`, но не показывает диапазон возможных значений эффекта. `confidence interval` позволяет увидеть, насколько эффект может быть большим или малым и включает ли он бизнес-значимые значения. Это делает решение более осмысленным и снижает риск принять статистически значимый, но бесполезный результат.

3В тесте вы получили `p-value` 0.20. Какой вывод наиболее корректен?
AДанные не дают оснований отклонить `H0` на стандартных уровнях значимости, но это может быть из-за низкой мощности, поэтому стоит посмотреть на `confidence interval` и размер эффекта.
BВероятность того, что `H0` верна, равна 20%, а значит с 80%-й уверенностью гипотеза подтверждена и эксперимент можно останавливать.
CПолученное значение `p-value` = 0.20 показывает, что наблюдаемый эффект по абсолютной величине составляет 20% относительно базовой метрики.
DЭто означает 80% вероятность того, что вариант B превосходит контрольную группу, и результат можно считать статистически значимым.
Ответ: Большой `p-value` означает недостаток свидетельств против `H0`, но не доказывает отсутствие эффекта.

`p-value` 0.20 говорит, что наблюдаемые данные не выглядят редкими при `H0`. Однако это может происходить и при наличии эффекта, если эксперимент недомощный или метрика слишком шумная. Поэтому полезно интерпретировать `p-value` вместе с `confidence interval` и оценкой практической значимости.

4Вы сравниваете долю конверсии (успех/неуспех) в A и B на больших выборках. Какой тест чаще всего выбирают как базовый для сравнения долей?
A`t-test` для независимых выборок
B`chi-square` для сравнения средних
C`z-test` для разницы долей
DТест для корреляции Пирсона
Ответ: Для сравнения долей в двух группах часто используют двухвыборочный `z-test` (или эквивалентную проверку через таблицу сопряжённости).

Метрика конверсии является долей, поэтому естественная постановка — сравнение пропорций. На больших объёмах данных двухпропорционный `z-test` является распространённым выбором. Важно заранее определить `H0` и `H1` и выбрать уровень `alpha` до просмотра результатов.

5Вы сравниваете средний чек в группах A и B (не долю), а дисперсии заранее неизвестны. Какой базовый тест чаще всего используют для сравнения средних?
A`chi-square`
B`z-test` для долей
C`t-test` для сравнения средних
DТест на равенство медиан без указания распределения как единственно верный
Ответ: Для сравнения средних в двух независимых группах обычно используют `t-test`.

Если метрика количественная и интересует разница средних, типичный выбор — `t-test` для независимых выборок. Он широко используется в A/B тестировании как базовый инструмент для средних. На практике также важно проверять, не «ломает» ли метрику выбросы, и смотреть на размер эффекта и `confidence interval`.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED