Доверительные интервалы: вопросы для собеседования (часть 4)

Доверительный интервал показывает диапазон правдоподобных значений параметра, а не вероятность попадания в него — и эту разницу обязательно спросят. Как построить интервал для среднего, для доли, как ширина зависит от размера выборки — стандартные вопросы на собеседовании. Грамотная интерпретация CI важнее, чем умение его посчитать.

Хи-квадрат и таблицы сопряжённостиКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 1620 из 20

16Аналитик показывает 95% `confidence interval` для среднего времени доставки и говорит: «в 95% будущих доставок время будет в этом диапазоне». Какой ответ корректен?
AВерно: `confidence interval` для среднего совпадает с диапазоном будущих значений.
BВерно, если выборка большая и `standard error` маленький.
CНеверно, потому что `confidence interval` всегда шире, чем разброс отдельных доставок.
DНеверно: `confidence interval` описывает неопределённость среднего, а для будущих наблюдений нужен прогнозный интервал, который обычно шире.
Ответ: `Confidence interval` относится к параметру или среднему, а не к отдельным наблюдениям.

`Confidence interval` для среднего отвечает на вопрос про неопределённость оценки среднего, а не про разброс отдельных наблюдений. Даже если среднее известно точно, отдельные значения всё равно могут сильно колебаться, поэтому нужен другой инструмент — прогнозный интервал. Ошибка — использовать `confidence interval` как обещание, что большинство будущих наблюдений попадёт внутрь.

17Вы построили 95% `confidence interval` для эффекта в 20 сегментах и выбрали один сегмент, где интервал не включает 0, чтобы рассказать о «победе». Что корректно сказать про такую интерпретацию?
AТак можно: `confidence interval` уже учитывает случайность, выбор сегмента ничего не меняет.
BТак делать опасно: из-за выбора из многих сегментов растёт шанс случайной находки, и заявленное `покрытие` для выбранного результата больше не гарантировано.
CТак можно, если сегмент самый большой по n.
DТак можно, если точечный эффект положительный, даже если интервал широкий.
Ответ: Выбор «лучшего» сегмента после просмотра многих нарушает частотный смысл `confidence interval` и снижает `покрытие`.

Когда вы смотрите на много сегментов и выбираете один «самый красивый», вы фактически проводите множественный поиск и повышаете шанс случайной находки. Номинальный `confidence level` и заявленное `покрытие` относятся к заранее заданной процедуре, а не к выбранному постфактум результату. Обычно нужна повторная проверка на новых данных или корректировка подхода к множественным сравнениям.

18Вы хотите уменьшить `margin of error` для среднего примерно в 2 раза при том же `confidence level` и похожей дисперсии. Во сколько раз примерно нужно увеличить размер выборки n?
AВ 2 раза
BВ 3 раза
CВ 4 раза
DВ 10 раз
Ответ: Поскольку `standard error` падает как `1/√n`, чтобы вдвое сузить интервал, нужно увеличить n примерно в 4 раза.

Для многих оценок `margin of error` пропорционален `standard error`, а `standard error` примерно пропорционален `1/√n`. Чтобы уменьшить `margin of error` в 2 раза, нужно уменьшить `standard error` в 2 раза, то есть увеличить n примерно в 4 раза. Частая ошибка — думать, что достаточно просто удвоить n.

19В A/B тесте оценка эффекта по конверсии равна +0.3 п.п., а 95% `confidence interval` от −0.1 п.п. до 0.7 п.п. Минимально полезный эффект для бизнеса — 0.2 п.п. Какой вывод корректнее всего?
AДанных недостаточно, чтобы уверенно утверждать улучшение хотя бы на 0.2 п.п.; интервал пересекает и 0, и порог 0.2.
BМожно уверенно запускать, потому что точечная оценка положительная.
CМожно утверждать, что эффект как минимум 0.2 п.п., раз верхняя граница больше.
D95% означает, что с вероятностью 95% эффект не меньше 0.2 п.п.
Ответ: Сравнивайте `confidence interval` не только с 0, но и с практическим порогом, который важен бизнесу.

Интервал включает отрицательные значения и значения ниже порога 0.2, значит нельзя уверенно гарантировать полезный эффект. Для решения важно определить, что считать практическим успехом, и сравнивать `confidence interval` с этим порогом, а не только с нулём. Частая ошибка — запускать по положительной точечной оценке, игнорируя риск ухудшения и неопределённость.

20Вы строите 95% `confidence interval` для среднего по небольшой выборке, где σ неизвестна. Почему часто используют критическое значение `t`, а не `z`?
A`t` всегда делает интервал уже, поэтому он удобнее.
B`z` нельзя использовать для среднего, он только для долей.
CПотому что `t` меняет `confidence level` и делает его больше.
DПотому что `standard error` оценивается по выборке и добавляет неопределённость; `t` учитывает это и даёт более корректное `покрытие` при малом n.
Ответ: При малом n и неизвестной σ корректнее использовать `t`, потому что оценка `standard error` сама случайна.

Когда σ неизвестна, вы используете выборочное s в `standard error`, и это добавляет ещё один источник неопределённости. Распределение `t` учитывает это и имеет более толстые хвосты, поэтому при малом n интервал получается шире, что помогает сохранить заявленное `покрытие`. При росте n `t` приближается к `z`, и разница почти исчезает.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей