Вопросы по теме «Доверительные интервалы»

Доверительный интервал показывает диапазон правдоподобных значений параметра, а не вероятность попадания в него — и эту разницу обязательно спросят. Как построить интервал для среднего, для доли, как ширина зависит от размера выборки — стандартные вопросы на собеседовании. Грамотная интерпретация CI важнее, чем умение его посчитать.

Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.

Хи-квадрат и таблицы сопряжённостиКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 15 из 20

1Что отражает величина `standard error` в контексте `confidence interval`?
AРазброс отдельных наблюдений вокруг среднего (вариативность данных).
BСистематическое смещение оценки (bias) относительно истинного значения.
CНеопределённость точечной оценки из-за конечного размера выборки (разброс оценок между выборками).
DДолю ошибок в данных из-за плохого трекинга событий.
Ответ: `Standard error` описывает, насколько оценка (например, среднее) колеблется от выборки к выборке.

`Standard error` — это стандартное отклонение оценки (например, среднего) между повторными выборками. Для среднего часто используют приближение `standard error ≈ s/√n`, поэтому при росте n он уменьшается. Типичная ошибка — путать его со стандартным отклонением самих наблюдений.

2Вы построили `confidence interval` на `confidence level` 99% вместо 95% по тем же данным. Как изменится интервал и почему?
AСтанет уже, потому что мы «увереннее» в оценке.
BСтанет шире, потому что для большего `confidence level` нужен больший `margin of error`.
CНе изменится, потому что данные те же.
DИзменится только центр интервала, а ширина останется прежней.
Ответ: Повышение `confidence level` требует большего `margin of error`, поэтому интервал расширяется.

При большем `confidence level` вы требуете, чтобы процедура давала выше ожидаемое `покрытие`. Для этого увеличивается критическое значение в формуле вида `estimate ± z * standard error`, и растёт `margin of error`. Цена — интервал становится шире, и тонкие эффекты труднее подтвердить.

3Что в статистике означает `покрытие` доверительных интервалов?
AДолю интервалов, которые содержат истинный параметр при многократном повторении процедуры построения.
BДолю наблюдений, которые попадают внутрь интервала на одном датасете.
CШирину интервала (насколько он длинный).
DВероятность того, что истинный параметр находится внутри конкретного интервала.
Ответ: `Покрытие` — это частотная доля интервалов, накрывающих истинный параметр в повторениях.

`Покрытие` — это доля построенных интервалов, которые накрывают истинный параметр при повторении эксперимента. Номинальный `confidence level` (например, 95%) — это целевое покрытие процедуры, а не гарантия для каждого конкретного интервала. Если предпосылки нарушены или `standard error` оценён неверно, фактическое `покрытие` может отличаться.

4Команда в разведочном анализе решила показывать интервалы на `confidence level` 90% вместо 95%. Какое утверждение корректно?
AИнтервал будет шире и чаще накроет истинное значение.
B`Покрытие` станет выше, чем у 95% интервала.
CНичего не меняется: меняется только подпись в отчёте.
DИнтервал будет уже, но фактическое `покрытие` процедуры ниже, чем при 95%.
Ответ: Снижение `confidence level` уменьшает `margin of error`, но увеличивает риск промаха относительно истинного значения.

90% `confidence level` означает, что процедура строит интервалы с меньшим целевым `покрытием`, чем при 95%. За это вы платите тем, что чаще будете получать интервалы, которые не содержат истинный параметр. Зато критическое значение меньше, и `margin of error` обычно уменьшается, делая интервал уже.

5Как корректно интерпретировать `95% confidence interval` для среднего чека, рассчитанный по выборке?
AЕсли бы мы многократно повторяли сбор выборки и каждый раз строили интервал тем же методом, то примерно в 95% случаев интервал содержал бы истинное среднее.
BС вероятностью 95% истинное среднее лежит внутри полученного интервала.
C95% наблюдений в выборке лежат внутри полученного интервала.
DИнтервал гарантированно содержит истинное среднее, если выборка достаточно большая.
Ответ: Частотная трактовка говорит про долю интервалов, которые накроют параметр при повторениях.

В частотном подходе параметр фиксирован, а случайность — в выборке и построенном `confidence interval`. Поэтому 95% относится к процедуре построения: из многих интервалов примерно 95% будут содержать истинное значение. Типичная ошибка — говорить о вероятности параметра внутри конкретного интервала.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей