Тесты для средних: вопросы для собеседования (часть 2)
z-тест, t-тест (одновыборочный, двухвыборочный, парный), тест Уэлча — основные инструменты для сравнения средних. На собеседовании спрашивают, когда использовать z vs t, что делать при неравных дисперсиях и как проверить предпосылки теста. Сравнение средних — ядро большинства аналитических задач.
Вопросы 6–10 из 20
6Для какой метрики `t-test` для средних наиболее естественен?
AСреднее время загрузки страницы `load_time`
BДоля конверсии `conversion_rate`
CКоличество уникальных пользователей `unique_users`
DДоля ошибок `error_rate`
Ответ: `t-test` по определению сравнивает средние значения количественной метрики.
`Load_time` — непрерывная величина, и сравнение её средних напрямую соответствует постановке `t-test`. Для долей и категорий чаще используют другие подходы, хотя при больших n доля тоже является средним индикатора. Важно согласовать, что именно вы тестируете: среднее значение или долю событий. Типичная ошибка — выбирать тест по привычке, не проверяя тип метрики.
7В A/B эксперименте пользователи случайно распределены: группа A видит старую страницу, группа B — новую; пользователи не пересекаются. Какой тест сравнения средних подходит для сравнения метрики `revenue_per_user`?
AПарный `paired` `t-test`
BНепарный `independent` `t-test`
C`chi-square` тест по таблице 2x2
DПарный тест, где пары — это сессии одного дня
Ответ: Для двух независимых групп используют `independent` `t-test`.
В A/B группы состоят из разных пользователей, поэтому наблюдения независимы. `Independent` `t-test` сравнивает средние двух выборок при этой структуре данных. Если ошибочно применить парный тест, вы искусственно создадите пары и получите неверную интерпретацию.
8A/B тест: пользователи случайно распределены по группам, но у каждого много сессий. Вы агрегировали метрику до уровня пользователя `user_mean` и сравниваете группы. Какой тест по дизайну подходит лучше всего?
AПарный `paired` `t-test`, потому что у пользователя много сессий
B`chi-square` тест, потому что данные по сессиям
CНепарный `independent` `t-test`, потому что группы пользователей разные
DТест на `равенство дисперсий` вместо теста разницы средних
Ответ: После агрегации до пользователя сравнение идёт между разными группами пользователей, то есть дизайн `independent`.
Ключевой вопрос — пересекаются ли объекты сравнения: пользователь относится либо к A, либо к B. Если метрика сведена к одному числу на пользователя, наблюдения независимы между группами, и подходит `independent` `t-test`. Типичная ошибка — тестировать по сессиям без агрегации и получить псевдоувеличение n из-за зависимости внутри пользователя.
9Вы получили `CI 95%` для разницы средних A−B: `[-1.2; 0.4]`. Что это означает на уровне значимости `alpha = 0.05`?
AРазница точно отрицательная и равна -1.2
BРазница точно положительная и равна 0.4
CМожно утверждать, что A и B различаются на 95%
DНельзя отвергнуть `H0`, потому что 0 попадает в `CI`
Ответ: Если `CI` разницы включает 0, то при `alpha = 0.05` эффект не считается статистически значимым.
Доверительный интервал показывает диапазон правдоподобных значений эффекта по данным. Если 0 внутри `CI`, то нулевая разница совместима с наблюдениями, и `H0` обычно не отвергают на уровне 0.05. Типичная ошибка — трактовать `CI` как вероятность истинного эффекта или как гарантию знака.
10В каких условиях предпосылка равенства дисперсий наиболее критична для классического `independent` `t-test` с pooled дисперсией?
AКогда обе группы имеют одинаковые размеры и очень большие n
BКогда данные уже нормальные, значит дисперсии не важны
CКогда тест парный, потому что пары усиливают дисперсии
DКогда размеры групп сильно разные и при этом дисперсии заметно различаются
Ответ: Pooled вариант чувствителен к разным дисперсиям, особенно при разных размерах групп.
Если дисперсии отличаются и одна группа существенно больше, pooled оценка может неверно оценить стандартную ошибку и уровень ошибок первого рода. В таких случаях чаще выбирают Welch `t-test`. Типичная ошибка — использовать pooled тест 'по умолчанию' без проверки размеров и разброса. Это особенно неприятно в A/B, где случайные перекосы по размеру возможны.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram