Question 1

Для какой метрики `t-test` для средних наиболее естественен?

Accepted Answer

`t-test` по определению сравнивает средние значения количественной метрики. `t-test` для средних предназначен для непрерывных метрик с приближённо нормальным распределением среднего по выборке (по `CLT` это выполняется при достаточном `n`). Время загрузки `load_time` — типичный пример: метрика непрерывная, у неё есть дисперсия, можно осмысленно сравнивать средние двух групп. Доли (`conversion_rate`, `error_rate`) — бинарные метрики на уровне наблюдения; для них корректнее z-test для пропорций или хи-квадрат, хотя `t-test` тоже работает приблизительно при больших `n`. Количество уникальных пользователей — счётчик, для сравнения которого обычно используют тесты на счётные данные.

Question 2

В A/B эксперименте пользователи случайно распределены: группа A видит старую страницу, группа B — новую; пользователи не пересекаются. Какой тест сравнения средних подходит для метрики `revenue_per_user`?

Accepted Answer

Для двух независимых групп используют непарный (двухвыборочный) `t-test` для сравнения средних. В A/B группы состоят из разных пользователей, поэтому наблюдения независимы. Двухвыборочный `t-test` сравнивает средние двух выборок при этой структуре данных. Если ошибочно применить парный тест, вы искусственно создадите пары и получите неверную интерпретацию.

Question 3

A/B тест: пользователи случайно распределены по группам, но у каждого много сессий. Вы агрегировали метрику до уровня пользователя `user_mean` и сравниваете группы. Какой тест по дизайну подходит лучше всего?

Accepted Answer

После агрегации до пользователя сравнение идёт между разными группами пользователей — дизайн независимых выборок. Ключевой вопрос — пересекаются ли объекты сравнения: пользователь относится либо к A, либо к B. Если метрика сведена к одному числу на пользователя, наблюдения независимы между группами, и подходит непарный `t-test`. Типичная ошибка — тестировать по сессиям без агрегации и получить псевдоувеличение n из-за зависимости внутри пользователя.

Question 4

Вы получили `CI 95%` для разницы средних A−B: `[-1.2; 0.4]`. Что это означает на уровне значимости `alpha = 0.05`?

Accepted Answer

Если `CI` для разницы включает `0`, то при `alpha = 0.05` эффект не считается статистически значимым. Доверительный интервал показывает диапазон правдоподобных значений эффекта по данным. Если `0` лежит внутри `CI`, то нулевая разница совместима с наблюдениями, и `H0` обычно не отвергают на уровне `0.05`. Типичная ошибка — трактовать `CI` как вероятность истинного эффекта или как гарантию знака разницы.

Question 5

В каких условиях предпосылка равенства дисперсий наиболее критична для классического `t-test` с pooled-дисперсией для независимых выборок?

Accepted Answer

Pooled-вариант чувствителен к разным дисперсиям, особенно при заметно разных размерах групп. Если дисперсии отличаются и одна группа существенно больше, pooled-оценка может неверно оценить стандартную ошибку и уровень ошибок первого рода. В таких случаях чаще выбирают `t-test` Уэлча, не предполагающий равенства дисперсий. Типичная ошибка — использовать pooled-вариант «по умолчанию» без проверки размеров и разброса. Это особенно неприятно в A/B-тестах, где случайные перекосы по размеру групп вполне возможны.

Тесты для средних: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика