Q: В A/B тесте разница средних всего 0.1%, но `p-value` < 0.001 из-за очень большого n. Что корректнее всего сказать про результат?

Малый `p-value` говорит про статистическую значимость, но не про практическую важность эффекта. При огромных выборках даже очень маленькие эффекты становятся статистически значимыми. Поэтому рядом с `p-value` нужно смотреть оценку эффекта и доверительный интервал, чтобы понять масштаб и неопределённость. Типичная ошибка — принимать «значимо» за «важно для бизнеса» без оценки величины и стоимости изменений. И `p-value` не равен вероятности нулевой гипотезы: это вероятность данных при условии её истинности.

Question 1

Когда предпосылка о нормальности распределения обычно становится особенно важной для выводов `t-test`?

Accepted Answer

При маленьких выборках сильная ненормальность может заметно влиять на корректность `t-test`. При больших выборках среднее часто становится близким к нормальному из-за эффекта усреднения, и `t-test` обычно устойчивее. При малых выборках и сильных перекосах или выбросах стандартные предпосылки могут нарушаться, и результат становится менее надёжным. Типичная ошибка — игнорировать форму распределения при выборках в 20–30 наблюдений и принимать выводы без проверки здравого смысла.

Question 2

Разница средних B−A по времени отклика: `CI 95% = [0.2; 1.0]` секунд. Какое утверждение корректно?

Accepted Answer

Если `CI` для разницы полностью выше 0, эффект положительный и значим на 0.05. `CI` показывает диапазон правдоподобных значений разницы средних по данным, здесь это 0.2–1.0 секунды. Так как 0 не входит в интервал, нулевая разница несовместима с данными на уровне 95%, и `H0` обычно отвергают при `alpha=0.05`. Типичная ошибка — думать, что нижняя граница и есть «точное значение» эффекта.

Question 3

Для двух независимых групп вы видите, что разброс метрики сильно отличается. Какой вариант `t-test` обычно предпочтительнее при сомнениях в равенстве дисперсий?

Accepted Answer

При нарушении равенства дисперсий в независимых группах часто применяют `t-test` Уэлча. Вариант Уэлча корректирует расчёт стандартной ошибки и степеней свободы, когда дисперсии или размеры групп отличаются. Это делает выводы более надёжными при неравных разбросах. Типичная ошибка — автоматически использовать вариант с объединённой дисперсией и получить смещение уровня ошибок, особенно при разных размерах групп. Парный `t-test` не подходит для независимых групп, а `chi-square` применяется для категориальных частот, а не для сравнения средних.

Question 4

Какая «нормальность» (интуитивно) важна для парного `t-test` при сравнении до и после?

Accepted Answer

В парном `t-test` анализируют среднее разностей, поэтому предпосылка относится именно к разностям. Парный тест фактически делает `t-test` для одной выборки разностей `d = after - before`. Поэтому важно, чтобы распределение разностей было примерно нормальным — особенно при малых `n`. При больших выборках тест часто достаточно устойчив, но сильные перекосы и выбросы в разностях могут мешать. Типичная ошибка — проверять нормальность по каждой группе отдельно и забывать, что анализируется именно разность.

Question 5

В A/B тесте разница средних всего 0.1%, но `p-value` < 0.001 из-за очень большого n. Что корректнее всего сказать про результат?

Accepted Answer

Малый `p-value` говорит про статистическую значимость, но не про практическую важность эффекта. При огромных выборках даже очень маленькие эффекты становятся статистически значимыми. Поэтому рядом с `p-value` нужно смотреть оценку эффекта и доверительный интервал, чтобы понять масштаб и неопределённость. Типичная ошибка — принимать «значимо» за «важно для бизнеса» без оценки величины и стоимости изменений. И `p-value` не равен вероятности нулевой гипотезы: это вероятность данных при условии её истинности.

Тесты для средних: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика