Тесты для средних: вопросы для собеседования (часть 3)

z-тест, t-тест (одновыборочный, двухвыборочный, парный), тест Уэлча — основные инструменты для сравнения средних. На собеседовании спрашивают, когда использовать z vs t, что делать при неравных дисперсиях и как проверить предпосылки теста. Сравнение средних — ядро большинства аналитических задач.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для долей

Вопросы 1115 из 20

11Когда предпосылка «нормальность (интуитивно)» обычно становится особенно важной для выводов `t-test`?
AКогда n очень большое, например 1 000 000
BКогда дисперсии в группах идеально равны
CКогда выборки маленькие и распределение сильно скошено или с выбросами
DКогда `p-value` уже посчитано
Ответ: При маленьких выборках сильная ненормальность может заметно влиять на корректность `t-test`.

При больших n среднее часто становится близким к нормальному из-за эффекта усреднения, и `t-test` обычно устойчивее. При малых n и сильных перекосах/выбросах стандартные предпосылки могут нарушаться, и результат становится менее надёжным. Типичная ошибка — игнорировать форму распределения при n=20–30 и принимать выводы без проверки здравого смысла.

12Разница средних B−A по времени отклика: `CI 95% = [0.2; 1.0]` секунд. Какое утверждение корректно?
AЭффект точно равен 0.2 секунды
BНельзя сделать вывод о знаке эффекта по `CI`
CРазница незначима, потому что интервал широкий
DB в среднем медленнее A, и эффект статистически значим на `alpha=0.05`, так как 0 не входит в `CI`
Ответ: Если `CI` для разницы полностью выше 0, эффект положительный и значим на 0.05.

`CI` показывает диапазон правдоподобных значений разницы средних по данным, здесь это 0.2–1.0 секунды. Так как 0 не входит в интервал, нулевая разница несовместима с данными на уровне 95%, и `H0` обычно отвергают при `alpha=0.05`. Типичная ошибка — думать, что нижняя граница и есть 'точное значение' эффекта.

13Для двух независимых групп вы видите, что разброс метрики сильно отличается. Какой вариант `t-test` обычно предпочтительнее при сомнениях в равенстве дисперсий?
AКлассический `t-test` с pooled дисперсией и строгим равенством дисперсий
BWelch `t-test`, который не требует равенства дисперсий
CПарный `paired` `t-test`
D`chi-square` тест, потому что дисперсии разные
Ответ: При нарушении равенства дисперсий в независимых группах часто используют Welch `t-test`.

Welch вариант корректирует расчёт стандартной ошибки и степеней свободы, когда дисперсии и/или размеры групп отличаются. Это делает выводы более надёжными при неравных разбросах. Типичная ошибка — автоматически использовать pooled вариант и получить смещение уровня ошибок, особенно при разных размерах групп.

14Какая «нормальность (интуитивно)» важна для парного `paired` `t-test`?
AНормальность распределения разностей `d = after - before`
BНормальность распределения каждой группы по отдельности без учёта пар
CНормальность распределения `p-value`
DНормальность распределения размеров выборок
Ответ: В `paired` `t-test` анализируют среднее разностей, поэтому предпосылка относится к разностям.

Парный тест фактически делает `t-test` для одной выборки разностей `d`. Поэтому важно, чтобы распределение `d` было примерно нормальным (особенно при малых n). При больших выборках тест часто достаточно устойчив, но сильные перекосы и выбросы могут мешать. Ошибка — проверять «нормальность» по каждой группе отдельно и забывать про разности.

15В A/B тесте разница средних всего 0.1%, но `p-value` < 0.001 из-за очень большого n. Что корректнее всего сказать про результат?
AЭффект обязательно большой, раз `p-value` такой маленький
BЭффекта нет, потому что разница всего 0.1%
CЭффект статистически значим, но может быть практически мал; важно смотреть величину эффекта и `CI`
DМожно утверждать, что `H0` истинна с вероятностью 0.999
Ответ: Малый `p-value` говорит про статистическую значимость, но не про практическую важность эффекта.

При огромных выборках даже очень маленькие эффекты становятся статистически значимыми. Поэтому рядом с `p-value` нужно смотреть оценку эффекта и `CI`, чтобы понять масштаб и неопределённость. Типичная ошибка — принимать 'значимо' за 'важно для бизнеса' без оценки величины и стоимости изменений.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для долей