z-тест, t-тест (одновыборочный, двухвыборочный, парный), тест Уэлча — основные инструменты для сравнения средних. На собеседовании спрашивают, когда использовать z vs t, что делать при неравных дисперсиях и как проверить предпосылки теста. Сравнение средних — ядро большинства аналитических задач.
`Load_time` — непрерывная величина, и сравнение её средних напрямую соответствует постановке `t-test`. Для долей и категорий чаще используют другие подходы, хотя при больших n доля тоже является средним индикатора. Важно согласовать, что именно вы тестируете: среднее значение или долю событий. Типичная ошибка — выбирать тест по привычке, не проверяя тип метрики.
Подробный разбор →В A/B группы состоят из разных пользователей, поэтому наблюдения независимы. `Independent` `t-test` сравнивает средние двух выборок при этой структуре данных. Если ошибочно применить парный тест, вы искусственно создадите пары и получите неверную интерпретацию.
Подробный разбор →Ключевой вопрос — пересекаются ли объекты сравнения: пользователь относится либо к A, либо к B. Если метрика сведена к одному числу на пользователя, наблюдения независимы между группами, и подходит `independent` `t-test`. Типичная ошибка — тестировать по сессиям без агрегации и получить псевдоувеличение n из-за зависимости внутри пользователя.
Подробный разбор →Доверительный интервал показывает диапазон правдоподобных значений эффекта по данным. Если 0 внутри `CI`, то нулевая разница совместима с наблюдениями, и `H0` обычно не отвергают на уровне 0.05. Типичная ошибка — трактовать `CI` как вероятность истинного эффекта или как гарантию знака.
Подробный разбор →Если дисперсии отличаются и одна группа существенно больше, pooled оценка может неверно оценить стандартную ошибку и уровень ошибок первого рода. В таких случаях чаще выбирают Welch `t-test`. Типичная ошибка — использовать pooled тест 'по умолчанию' без проверки размеров и разброса. Это особенно неприятно в A/B, где случайные перекосы по размеру возможны.
Подробный разбор →В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать статистику в Telegram