Question 1

У вас таблица с количеством пользователей по вариантам A/B и по 4 источникам трафика. Нужно проверить, что распределение источников одинаковое в A и B. Какой тест чаще всего используют?

Accepted Answer

Для сравнения распределения по категориям между группами обычно применяют `chi-square` тест независимости. Когда данные представлены в виде таблицы частот по категориям, естественно проверить независимость признаков «вариант» и «источник». `chi-square` оценивает, насколько наблюдаемые частоты отклоняются от ожидаемых при независимости, и подходит для нескольких категорий сразу. Это часто используют для проверки рандомизации или для категориальных исходов; `t-test` и `z-test` тут не подходят, а медиана неприменима к номинальной шкале.

Question 2

Почему в продуктовых A/B тестах часто полезнее смотреть не только на `p-value`, но и на доверительный интервал?

Accepted Answer

`p-value` отвечает только на вопрос статистической значимости, а доверительный интервал показывает диапазон правдоподобных эффектов и помогает оценить практическую значимость. Маленький `p-value` говорит лишь о том, что наблюдаемые данные были бы редкими при `H0`, но ничего не сообщает ни о величине, ни о направлении эффекта. Доверительный интервал даёт оценку диапазона: правдоподобный эффект может быть и `+0.1%`, и `+15%` — это совершенно разные решения для бизнеса. Поэтому интервал помогает отделить статистическую значимость от практической. Никакой гарантии «эффект сохранится в том же виде» интервал не даёт, и уровень значимости он не отменяет: интервал и тест — это два согласованных взгляда на одну и ту же оценку.

Question 3

В тесте вы получили `p-value` 0.20. Какой вывод наиболее корректен?

Accepted Answer

`p-value` 0.20 говорит лишь о том, что данных не хватает для отказа от `H0` на стандартных уровнях, но не доказывает отсутствие эффекта. `p-value` — это вероятность увидеть данные, такие же или более экстремальные, при условии, что `H0` верна. Это не вероятность самой `H0` и не размер эффекта в процентах. Большое `p-value` может появиться и при ненулевом эффекте, если выборка маленькая или метрика шумная — особенно полезно посмотреть на доверительный интервал и оценку практической значимости. Вывод «B побеждает с вероятностью 80%» некорректно интерпретирует частотную статистику и приравнивает `1 − p` к вероятности гипотезы, чего `p-value` не делает.

Question 4

Вы сравниваете долю конверсии (успех/неуспех) в группах A и B на больших выборках. Какой тест чаще всего выбирают как базовый для сравнения долей?

Accepted Answer

Для долей на больших выборках базовым выбором обычно служит двухпропорционный `z-test`. При сравнении конверсий мы фактически сравниваем доли успехов в двух группах. На больших выборках распределение разности долей хорошо аппроксимируется нормальным, поэтому стандартный инструмент — двухпропорционный `z-test`. `t-test` рассчитан на средние при неизвестной дисперсии и применяется к долям только как приближение, при больших `n` он численно близок к `z-test`. Критерий хи-квадрат сравнивает наблюдаемые и ожидаемые частоты в таблице категорий, а не средние. Корреляция Пирсона измеряет линейную связь двух непрерывных переменных и для сравнения долей не подходит.

Question 5

Вы сравниваете средний чек в группах A и B (не долю), а дисперсии заранее неизвестны. Какой базовый тест чаще всего используют для сравнения средних?

Accepted Answer

Для сравнения средних с неизвестными дисперсиями стандартный базовый тест — двухвыборочный `t-test`. Когда мы сравниваем средние двух групп и заранее не знаем дисперсию в каждой, классический инструмент — `t-test` (часто Welch-вариант, который не требует равных дисперсий). Хи-квадрат работает на таблицах частот по категориям, а не со средними непрерывных метрик. `z-test` для долей подходит для конверсий, а не для среднего чека. Непараметрические тесты на равенство медиан — это альтернатива при сильно ненормальных данных, но как «базовый» инструмент они выбираются реже, чем `t-test`.

Вопросы по теме «Проверка гипотез и доверительные интервалы»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты