Тесты для средних: вопросы для собеседования (часть 3)
z-тест, t-тест (одновыборочный, двухвыборочный, парный), тест Уэлча — основные инструменты для сравнения средних. На собеседовании спрашивают, когда использовать z vs t, что делать при неравных дисперсиях и как проверить предпосылки теста. Сравнение средних — ядро большинства аналитических задач.
Вопросы 11–15 из 20
11Когда предпосылка «нормальность (интуитивно)» обычно становится особенно важной для выводов `t-test`?
AКогда n очень большое, например 1 000 000
BКогда дисперсии в группах идеально равны
CКогда выборки маленькие и распределение сильно скошено или с выбросами
DКогда `p-value` уже посчитано
Ответ: При маленьких выборках сильная ненормальность может заметно влиять на корректность `t-test`.
При больших n среднее часто становится близким к нормальному из-за эффекта усреднения, и `t-test` обычно устойчивее. При малых n и сильных перекосах/выбросах стандартные предпосылки могут нарушаться, и результат становится менее надёжным. Типичная ошибка — игнорировать форму распределения при n=20–30 и принимать выводы без проверки здравого смысла.
12Разница средних B−A по времени отклика: `CI 95% = [0.2; 1.0]` секунд. Какое утверждение корректно?
AЭффект точно равен 0.2 секунды
BНельзя сделать вывод о знаке эффекта по `CI`
CРазница незначима, потому что интервал широкий
DB в среднем медленнее A, и эффект статистически значим на `alpha=0.05`, так как 0 не входит в `CI`
Ответ: Если `CI` для разницы полностью выше 0, эффект положительный и значим на 0.05.
`CI` показывает диапазон правдоподобных значений разницы средних по данным, здесь это 0.2–1.0 секунды. Так как 0 не входит в интервал, нулевая разница несовместима с данными на уровне 95%, и `H0` обычно отвергают при `alpha=0.05`. Типичная ошибка — думать, что нижняя граница и есть 'точное значение' эффекта.
13Для двух независимых групп вы видите, что разброс метрики сильно отличается. Какой вариант `t-test` обычно предпочтительнее при сомнениях в равенстве дисперсий?
AКлассический `t-test` с pooled дисперсией и строгим равенством дисперсий
BWelch `t-test`, который не требует равенства дисперсий
CПарный `paired` `t-test`
D`chi-square` тест, потому что дисперсии разные
Ответ: При нарушении равенства дисперсий в независимых группах часто используют Welch `t-test`.
Welch вариант корректирует расчёт стандартной ошибки и степеней свободы, когда дисперсии и/или размеры групп отличаются. Это делает выводы более надёжными при неравных разбросах. Типичная ошибка — автоматически использовать pooled вариант и получить смещение уровня ошибок, особенно при разных размерах групп.
14Какая «нормальность (интуитивно)» важна для парного `paired` `t-test`?
AНормальность распределения разностей `d = after - before`
BНормальность распределения каждой группы по отдельности без учёта пар
CНормальность распределения `p-value`
DНормальность распределения размеров выборок
Ответ: В `paired` `t-test` анализируют среднее разностей, поэтому предпосылка относится к разностям.
Парный тест фактически делает `t-test` для одной выборки разностей `d`. Поэтому важно, чтобы распределение `d` было примерно нормальным (особенно при малых n). При больших выборках тест часто достаточно устойчив, но сильные перекосы и выбросы могут мешать. Ошибка — проверять «нормальность» по каждой группе отдельно и забывать про разности.
15В A/B тесте разница средних всего 0.1%, но `p-value` < 0.001 из-за очень большого n. Что корректнее всего сказать про результат?
AЭффект обязательно большой, раз `p-value` такой маленький
BЭффекта нет, потому что разница всего 0.1%
CЭффект статистически значим, но может быть практически мал; важно смотреть величину эффекта и `CI`
DМожно утверждать, что `H0` истинна с вероятностью 0.999
Ответ: Малый `p-value` говорит про статистическую значимость, но не про практическую важность эффекта.
При огромных выборках даже очень маленькие эффекты становятся статистически значимыми. Поэтому рядом с `p-value` нужно смотреть оценку эффекта и `CI`, чтобы понять масштаб и неопределённость. Типичная ошибка — принимать 'значимо' за 'важно для бизнеса' без оценки величины и стоимости изменений.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram