Question 1

Что означает `p-value` в контексте `t-test`?

Accepted Answer

`p-value` — это вероятность наблюдать столь же сильные данные при истинной `H0`. `p-value` вычисляется в предположении, что `H0` верна, и показывает, насколько необычны наблюдения при нулевом эффекте. Это не вероятность истинности гипотез и не гарантия повторяемости. Типичная ошибка — говорить 'вероятность, что гипотеза верна', хотя `p-value` отвечает на другой вопрос. Для решения также важны эффект и `CI`.

Question 2

Вы применили классический `independent` `t-test` с предпосылкой равенства дисперсий и получили `p-value=0.04`, но видите, что `std` в группах сильно отличается. Что разумнее сделать перед финальным выводом?

Accepted Answer

При сомнительном равенстве дисперсий Welch `t-test` обычно даёт более надёжный вывод. Сильно разные `std` — сигнал, что pooled предпосылка может быть неверной, и стандартная ошибка могла быть оценена некорректно. Welch вариант лучше учитывает неравные дисперсии и часто меняет `p-value` и `CI`. Если вывод меняется, это важная часть истории: решение нужно принимать по корректной модели. Типичная ошибка — фиксироваться на первом `p-value` и не проверять чувствительность к предпосылкам.

Question 3

Вы сравниваете метрику «до/после» для тех же пользователей, но применили `independent` `t-test` вместо `paired`. Какое последствие наиболее вероятно?

Accepted Answer

Если игнорировать парность, вы теряете информацию о связи и часто снижаете мощность теста. Парный дизайн убирает часть вариативности между пользователями, сравнивая каждого с самим собой. `Independent` подход трактует наблюдения как несвязанные и обычно даёт большую стандартную ошибку, поэтому сложнее обнаружить эффект. При этом выводы могут измениться: эффект может стать 'незначимым' из-за неправильного теста. Типичная ошибка — выбирать тест по привычке, а не по дизайну данных.

Question 4

В парном дизайне «до/после» часть пользователей не имеет измерения «после» (например, не вернулась). Что корректнее для применения `paired` `t-test`?

Accepted Answer

`Paired` `t-test` требует, чтобы каждая пара состояла из двух измерений одного объекта. Если нет значения «после», разность `d` для пользователя не определена, и парный тест не может корректно использовать такое наблюдение. Обычно берут только полные пары, но важно помнить про риск смещения: ушедшие пользователи могут отличаться. Если пропусков много или они неслучайны, лучше пересмотреть дизайн или метод, чтобы вывод оставался валидным. Типичная ошибка — механически смешать разные базы и назвать это парным сравнением.

Question 5

Метрика «время до покупки» имеет сильный хвост и выбросы, в каждой группе n=25. Что наиболее разумно сделать, если вы всё же хотите сравнить средние?

Accepted Answer

При малых n и хвостах важно проверить предпосылки и аккуратно интерпретировать `t-test` вместе с эффектом и `CI`. Сильные выбросы и перекосы могут сделать среднее нестабильным и нарушить интуитивную нормальность, на которой опирается тест при малых n. Преобразование вроде `log(x)` иногда делает распределение ближе к нормальному и снижает влияние хвоста, после чего сравнение средних становится более интерпретируемым. В любом случае важно смотреть не только `p-value`, но и размер эффекта и `CI`, чтобы понимать практический смысл. Типичная ошибка — 'дожимать' значимость изменением `alpha` вместо корректной работы с данными.

Тесты для средних: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика