Вы измерили среднее время выполнения задачи у одних и тех же 40 пользователей до и после изменения интерфейса. Какой тест для сравнения средних здесь уместен?
AПарный
t-test по разностям до и после, потому что измерения сделаны у одних и тех же 40 пользователейBНепарный
t-test для двух независимых выборок, считая «до» и «после» разными случайными группами пользователейCТест
chi-square для категориальных данных, ошибочно применённый к непрерывной метрике времени выполнения задачиD
z-test для долей, ошибочно применённый к среднему времени, потому что выборка превышает 30 наблюденийПравильный ответ. Если измерения сделаны у одних и тех же объектов до и после, выбирайте парный
t-test по разностям.Разбор
В парном дизайне каждое наблюдение «после» связано с конкретным «до», поэтому анализируют разности d = after - before. Это обычно уменьшает шум и повышает чувствительность по сравнению с непарным тестом. Частая ошибка — считать группы независимыми и терять информацию о парности или применять тесты для долей и категорий к непрерывной метрике времени.
Проверь себя · 1/3разбор после ответа
Для какой метрики
t-test для средних наиболее естественен?Ещё вопросы по теме «Тесты для средних»
- В A/B эксперименте пользователи случайно распределены: группа A видит старую страницу, группа B — новую; пользователи не пересекаются. Какой тест сравнения средних подходит для метрики `revenue_per_user`?
- Как выглядит стандартная нулевая гипотеза `H0` в двухвыборочном `t-test` для средних?
- Вы получили `CI 95%` для разницы средних A−B: `[-1.2; 0.4]`. Что это означает на уровне значимости `alpha = 0.05`?
- Какая «нормальность» (интуитивно) важна для парного `t-test` при сравнении до и после?
- Для двух независимых групп вы видите, что разброс метрики сильно отличается. Какой вариант `t-test` обычно предпочтительнее при сомнениях в равенстве дисперсий?
- Все вопросы по «Тесты для средних» →