Случайные величины и выборочные распределения: вопросы для собеседования (часть 3)

Выборочное распределение среднего, стандартная ошибка, t-распределение — концепции, которые связывают теорию вероятностей с практическим статистическим выводом. На собеседовании спрашивают, чем стандартная ошибка отличается от стандартного отклонения и как размер выборки влияет на точность оценки.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 1115 из 20

11Метрика времени ответа сильно скошена: много маленьких значений и редкие большие. Что чаще всего верно про `sampling distribution` `x̄` при росте `n`?
A`x̄` всегда имеет такое же распределение, как исходные данные, независимо от `n`
B`CLT` означает, что выбросы исчезнут из исходных данных при росте `n`
CПо `CLT` распределение `x̄` становится ближе к нормальному и уже, хотя исходные значения могут оставаться скошенными
D`x̄` становится равномерно распределённым, если данные скошены
Ответ: `CLT` описывает нормализацию `sampling distribution` среднего, а не изменение формы исходных данных.

Даже если отдельные наблюдения скошены, среднее по многим наблюдениям часто становится более 'симметричным' и приближается к нормальному распределению при росте `n`. Одновременно уменьшается `SE`, поэтому `x̄` становится более стабильной оценкой. Ошибка — думать, что `CLT` 'лечит' выбросы в данных или гарантирует нормальность уже при маленьком `n`.

12Две метрики имеют одинаковое истинное среднее, но первая намного более шумная (у данных больше дисперсия). При одинаковом размере выборки `n` у какой метрики `sampling distribution` `x̄` будет шире?
AУ менее шумной, потому что меньше разброс данных
BОдинаково, потому что средние одинаковые
CУ более шумной, потому что `SE` для `x̄` растёт вместе с разбросом исходных данных
DНельзя сравнить без знания `CLT`
Ответ: Ширина `sampling distribution` среднего определяется `SE`, а `SE` зависит от дисперсии данных и `n`.

При фиксированном `n` более шумная метрика даёт более широкий разброс возможных значений `x̄` от эксперимента к эксперименту. Интуитивно это следует из `SE = σ/√n`: чем больше `σ`, тем больше `SE`. Частая ошибка — сравнивать точность средних, глядя только на `n` и игнорируя, насколько 'шумные' исходные наблюдения.

13Что утверждает `CLT` (интуитивно) про `выборочное среднее` `x̄` при достаточно большом `n`?
AСами исходные данные становятся нормально распределёнными
B`x̄` становится равномерно распределённым на отрезке
CДостаточно `n=5`, чтобы `x̄` всегда было нормальным
DРаспределение `x̄` (то есть его `sampling distribution`) становится близким к нормальному при обычных условиях
Ответ: По `CLT` нормальность относится к `sampling distribution` среднего, а не к самим данным.

`CLT` говорит о поведении среднего по многим выборкам: `x̄` как статистика имеет тенденцию к нормальности при росте `n`. Это не означает, что исходные значения метрики становятся нормальными или что выбросы исчезают. Типичная ошибка — применять `CLT` к маленьким выборкам или к сильно зависимым наблюдениям без проверки предпосылок.

14Почему `выборочная дисперсия` на малой выборке (например, 20 наблюдений) может сильно отличаться при повторных случайных выборках из одной и той же популяции?
AПотому что дисперсия не относится к `случайная величина` и не может быть оценена по данным
BПотому что `выборочная дисперсия` — статистика, то есть `случайная величина`, и при малом `n` её `sampling distribution` обычно широкая
CПотому что дисперсия всегда должна быть равна 0 на малых выборках
DПотому что `CLT` запрещает оценивать дисперсию на малых выборках
Ответ: `Выборочная дисперсия` — это статистика, поэтому у неё есть разброс по выборкам, особенно при малом `n`.

Как и `x̄`, `выборочная дисперсия` зависит от конкретных наблюдений, а значит меняется от выборки к выборке. На малых `n` одно-две нетипичные точки могут заметно повлиять на оценку, поэтому `sampling distribution` дисперсии получается широкой. Частая ошибка — воспринимать одно значение дисперсии как 'точный' факт о популяции без учёта неопределённости.

15Команда запускает одинаковый A/B тест много раз и каждый раз считает эффект `Δ = x̄_B - x̄_A`. Значения `Δ` 'плавают' вокруг какого-то уровня. Как лучше всего назвать распределение значений `Δ` по повторениям?
AРаспределение исходных данных внутри одной группы
BРаспределение параметра `Δ` в популяции
CВыборочная дисперсия метрики
D`sampling distribution` статистики `Δ`
Ответ: Если вы повторяете эксперимент, статистика `Δ` образует своё `sampling distribution`.

Даже при одинаковом истинном эффекте результаты разных запусков будут немного отличаться из-за случайного состава выборок. Это и описывает `sampling distribution` для `Δ`: как распределяются оценки эффекта при повторении процедуры. Ошибка — интерпретировать одно наблюдение `Δ` как гарантированно точное значение эффекта без учёта разброса.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей