z-тест, t-тест (одновыборочный, двухвыборочный, парный), тест Уэлча — основные инструменты для сравнения средних. На собеседовании спрашивают, когда использовать z vs t, что делать при неравных дисперсиях и как проверить предпосылки теста. Сравнение средних — ядро большинства аналитических задач.
Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.
В классическом pooled варианте `independent` `t-test` предполагается, что вариативность метрики в группах похожа. Тогда можно оценивать общую дисперсию и корректно считать стандартную ошибку. Если разбросы сильно разные, лучше использовать Welch `t-test`. Частая ошибка — думать, что 'равенство дисперсий' означает отсутствие эффекта.
В парном дизайне каждое наблюдение «после» связано с конкретным «до», поэтому анализируют разности `d = after - before`. Это обычно уменьшает шум и повышает чувствительность по сравнению с непарным тестом. Частая ошибка — считать группы независимыми и терять информацию о парности.
Значение `p-value` меньше 0.05 означает, что такие данные маловероятны при верной `H0`, поэтому на выбранном уровне значимости `H0` отвергают. Это не означает, что эффект большой или что `H1` истинна с какой-то вероятностью. Типичная ошибка — путать правило решения с практической интерпретацией и игнорировать эффект и `CI`.
Нулевая гипотеза формулируется как отсутствие различий между средними: `μA = μB` или `μA - μB = 0`. Альтернатива (`H1`) задаёт, что разница не нулевая (или в заданную сторону). Частая путаница — принимать предпосылки (нормальность, дисперсии) за содержимое `H0`.
В кроссовер дизайне каждое наблюдение в A связано с наблюдением в B для того же пользователя. Парный тест использует разности по пользователю и обычно даёт более точное сравнение. Типичная ошибка — игнорировать парность и сравнивать как независимые группы.
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram