Тесты для средних: вопросы для собеседования (часть 4)
z-тест, t-тест (одновыборочный, двухвыборочный, парный), тест Уэлча — основные инструменты для сравнения средних. На собеседовании спрашивают, когда использовать z vs t, что делать при неравных дисперсиях и как проверить предпосылки теста. Сравнение средних — ядро большинства аналитических задач.
Вопросы 16–20 из 20
16Что означает `p-value` в контексте `t-test`?
AВероятность того, что `H0` истинна
BВероятность того, что `H1` истинна
CВероятность получить точно такую же разницу средних в следующем эксперименте
DВероятность получить данные не менее экстремальные при условии, что `H0` верна
Ответ: `p-value` — это вероятность наблюдать столь же сильные данные при истинной `H0`.
`p-value` вычисляется в предположении, что `H0` верна, и показывает, насколько необычны наблюдения при нулевом эффекте. Это не вероятность истинности гипотез и не гарантия повторяемости. Типичная ошибка — говорить 'вероятность, что гипотеза верна', хотя `p-value` отвечает на другой вопрос. Для решения также важны эффект и `CI`.
17Вы применили классический `independent` `t-test` с предпосылкой равенства дисперсий и получили `p-value=0.04`, но видите, что `std` в группах сильно отличается. Что разумнее сделать перед финальным выводом?
AСразу принять результат, потому что `p-value` уже меньше 0.05
BПересчитать Welch `t-test` и сравнить выводы и `CI`, явно указав, что дисперсии неравны
CЗаменить `t-test` на парный `paired`, чтобы дисперсии стали равны
DУвеличить `alpha` до 0.1, чтобы не сомневаться
Ответ: При сомнительном равенстве дисперсий Welch `t-test` обычно даёт более надёжный вывод.
Сильно разные `std` — сигнал, что pooled предпосылка может быть неверной, и стандартная ошибка могла быть оценена некорректно. Welch вариант лучше учитывает неравные дисперсии и часто меняет `p-value` и `CI`. Если вывод меняется, это важная часть истории: решение нужно принимать по корректной модели. Типичная ошибка — фиксироваться на первом `p-value` и не проверять чувствительность к предпосылкам.
18Вы сравниваете метрику «до/после» для тех же пользователей, но применили `independent` `t-test` вместо `paired`. Какое последствие наиболее вероятно?
AТест станет более мощным, потому что независимость даёт больше информации
BТест станет менее чувствительным, потому что игнорирует связь внутри пар и увеличивает шум
CТест автоматически превратится в Welch `t-test`
DНичего не изменится, потому что `paired` и `independent` всегда эквивалентны
Ответ: Если игнорировать парность, вы теряете информацию о связи и часто снижаете мощность теста.
Парный дизайн убирает часть вариативности между пользователями, сравнивая каждого с самим собой. `Independent` подход трактует наблюдения как несвязанные и обычно даёт большую стандартную ошибку, поэтому сложнее обнаружить эффект. При этом выводы могут измениться: эффект может стать 'незначимым' из-за неправильного теста. Типичная ошибка — выбирать тест по привычке, а не по дизайну данных.
19В парном дизайне «до/после» часть пользователей не имеет измерения «после» (например, не вернулась). Что корректнее для применения `paired` `t-test`?
AСлучайно дописать недостающие значения, чтобы пары стали полными
BИспользовать только полные пары (есть «до» и «после») или менять метод/дизайн, явно учитывая пропуски
CЗаменить `paired` на `chi-square`, потому что есть пропуски
DСравнить средние «до» всех и «после» всех тем же `paired` тестом без проверки пар
Ответ: `Paired` `t-test` требует, чтобы каждая пара состояла из двух измерений одного объекта.
Если нет значения «после», разность `d` для пользователя не определена, и парный тест не может корректно использовать такое наблюдение. Обычно берут только полные пары, но важно помнить про риск смещения: ушедшие пользователи могут отличаться. Если пропусков много или они неслучайны, лучше пересмотреть дизайн или метод, чтобы вывод оставался валидным. Типичная ошибка — механически смешать разные базы и назвать это парным сравнением.
20Метрика «время до покупки» имеет сильный хвост и выбросы, в каждой группе n=25. Что наиболее разумно сделать, если вы всё же хотите сравнить средние?
AПолностью игнорировать форму распределения, потому что `t-test` всегда точен
BВсегда принудительно использовать `paired` `t-test`, даже если группы независимы
CПоднять `alpha` до 0.2, чтобы тест стал 'более честным'
DПроверить распределение (интуитивная `нормальность`), рассмотреть преобразование вроде `log(x)`, и интерпретировать результат вместе с эффектом и `CI`
Ответ: При малых n и хвостах важно проверить предпосылки и аккуратно интерпретировать `t-test` вместе с эффектом и `CI`.
Сильные выбросы и перекосы могут сделать среднее нестабильным и нарушить интуитивную нормальность, на которой опирается тест при малых n. Преобразование вроде `log(x)` иногда делает распределение ближе к нормальному и снижает влияние хвоста, после чего сравнение средних становится более интерпретируемым. В любом случае важно смотреть не только `p-value`, но и размер эффекта и `CI`, чтобы понимать практический смысл. Типичная ошибка — 'дожимать' значимость изменением `alpha` вместо корректной работы с данными.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram