Метрика «время до покупки» имеет сильный хвост и выбросы, в каждой группе n=25. Что наиболее разумно сделать, если вы всё же хотите сравнить средние?
AПолностью игнорировать форму распределения, потому что
t-test всегда точенBВсегда принудительно использовать
paired t-test, даже если группы независимыCПоднять
alpha до 0.2, чтобы тест стал 'более честным'DПроверить распределение (интуитивная
нормальность), рассмотреть преобразование вроде log(x), и интерпретировать результат вместе с эффектом и CIПравильный ответ. При малых n и хвостах важно проверить предпосылки и аккуратно интерпретировать
t-test вместе с эффектом и CI.Разбор
Сильные выбросы и перекосы могут сделать среднее нестабильным и нарушить интуитивную нормальность, на которой опирается тест при малых n. Преобразование вроде log(x) иногда делает распределение ближе к нормальному и снижает влияние хвоста, после чего сравнение средних становится более интерпретируемым. В любом случае важно смотреть не только p-value, но и размер эффекта и CI, чтобы понимать практический смысл. Типичная ошибка — 'дожимать' значимость изменением alpha вместо корректной работы с данными.
Проверь себя · 1/3разбор после ответа
Разница средних B−A по времени отклика:
CI 95% = [0.2; 1.0] секунд. Какое утверждение корректно?Ещё вопросы по теме «Тесты для средних»
- Вы измерили среднее время выполнения задачи у тех же 40 пользователей «до» и «после» изменения интерфейса. Какой тест для сравнения средних здесь уместен?
- В A/B эксперименте пользователи случайно распределены: группа A видит старую страницу, группа B — новую; пользователи не пересекаются. Какой тест сравнения средних подходит для сравнения метрики `revenue_per_user`?
- Как выглядит стандартная нулевая гипотеза `H0` в двухвыборочном `t-test` для средних?
- Вы получили `CI 95%` для разницы средних A−B: `[-1.2; 0.4]`. Что это означает на уровне значимости `alpha = 0.05`?
- Какая «нормальность (интуитивно)» важна для парного `paired` `t-test`?
- Все вопросы по «Тесты для средних» →