Question 1

Аналитик показывает 95% доверительный интервал для среднего времени доставки и говорит: «в 95% будущих доставок время будет в этом диапазоне». Какой ответ корректен?

Accepted Answer

Доверительный интервал относится к параметру или среднему, а не к отдельным будущим наблюдениям. Доверительный интервал для среднего отвечает на вопрос про неопределённость оценки среднего, а не про разброс отдельных наблюдений. Даже если среднее известно точно, отдельные значения всё равно могут сильно колебаться, поэтому нужен другой инструмент — прогнозный интервал. Типичная ошибка — использовать доверительный интервал как обещание, что большинство будущих наблюдений попадёт внутрь него. Прогнозный интервал, как правило, заметно шире.

Question 2

Вы построили 95% доверительные интервалы для эффекта в 20 сегментах и выбрали один сегмент, где интервал не включает 0, чтобы рассказать о «победе». Что корректно сказать про такую интерпретацию?

Accepted Answer

Выбор «лучшего» сегмента после просмотра многих нарушает частотный смысл доверительного интервала и снижает покрытие. Когда вы смотрите на много сегментов и выбираете один «самый красивый», вы фактически проводите множественный поиск и повышаете шанс случайной находки. Номинальный уровень доверия и заявленное покрытие относятся к заранее заданной процедуре, а не к выбранному постфактум результату. Обычно нужна повторная проверка на новых данных или поправка на множественные сравнения.

Question 3

Вы хотите уменьшить предельную ошибку (margin of error) для среднего примерно в 2 раза при том же уровне доверия и похожей дисперсии. Во сколько раз примерно нужно увеличить размер выборки `n`?

Accepted Answer

Стандартная ошибка падает как `1/√n`, поэтому для сужения интервала вдвое нужно увеличить `n` примерно в 4 раза. Для большинства оценок предельная ошибка пропорциональна стандартной ошибке среднего, а та убывает как `σ/√n`. Чтобы уменьшить предельную ошибку в 2 раза, нужно уменьшить стандартную ошибку в 2 раза, то есть увеличить `n` примерно в 4 раза. Частая ошибка — думать, что достаточно просто удвоить `n`: тогда интервал сузится только в `√2 ≈ 1.41` раз. Чтобы сузить интервал в 10 раз, выборку нужно увеличить уже в 100 раз.

Question 4

В A/B тесте оценка эффекта по конверсии равна +0.3 п.п., а 95%-ный доверительный интервал — от −0.1 п.п. до 0.7 п.п. Минимально полезный эффект для бизнеса — 0.2 п.п. Какой вывод корректнее всего?

Accepted Answer

Сравнивайте доверительный интервал не только с 0, но и с порогом практической значимости, который важен бизнесу. Доверительный интервал включает отрицательные значения и значения ниже порога 0.2, поэтому нельзя гарантировать полезный эффект. Для бизнес-решения важно определить порог практической значимости и сравнивать интервал именно с ним, а не только с нулём. Частая ошибка — запускать изменение по положительной точечной оценке, игнорируя риск ухудшения и неопределённость, заложенную в интервале.

Question 5

Вы строите 95% доверительный интервал для среднего по небольшой выборке, где σ неизвестна. Почему часто используют критическое значение `t`, а не `z`?

Accepted Answer

При малом `n` и неизвестной σ корректнее использовать `t`, потому что оценка стандартной ошибки сама случайна. Когда σ неизвестна, вы используете выборочное `s` в стандартной ошибке, и это добавляет ещё один источник неопределённости. Распределение `t` учитывает это и имеет более толстые хвосты, поэтому при малом `n` интервал получается шире, что помогает сохранить заявленное покрытие. При росте `n` `t` приближается к `z`, и разница почти исчезает. Утверждения, что `t` уже, что `z` только для долей, или что меняется уровень доверия — неверны.

Доверительные интервалы: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика