Случайные величины и выборочные распределения: вопросы для собеседования (часть 4)

Выборочное распределение среднего, стандартная ошибка, t-распределение — концепции, которые связывают теорию вероятностей с практическим статистическим выводом. На собеседовании спрашивают, чем стандартная ошибка отличается от стандартного отклонения и как размер выборки влияет на точность оценки.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 1620 из 20

16Вы взяли 500 случайных выборок из одной популяции и для каждой посчитали выборочную дисперсию. Что представляет собой гистограмма этих 500 значений?
A`sampling distribution` для выборочной дисперсии
BРаспределение исходных наблюдений в популяции
CРаспределение параметра `σ^2` как случайной величины
DТочную функцию плотности исходной метрики
Ответ: Гистограмма значений статистики по многим выборкам — это её `sampling distribution`.

Вы не строите распределение исходных данных, вы строите распределение оценки дисперсии, которая сама является случайной величиной. Такая гистограмма показывает, насколько оценка дисперсии может колебаться от выборки к выборке при фиксированном `n`. Ошибка — сравнивать эту гистограмму напрямую с гистограммой исходных наблюдений и делать выводы о форме данных.

17Вы хотите уменьшить стандартную ошибку оценки `x̄` в 3 раза. Во сколько раз нужно увеличить размер выборки `n`, если ориентироваться на `SE ~ 1/√n`?
AВ 3 раза
BВ 6 раз
CВ 12 раз
DВ 9 раз
Ответ: Если `SE ~ 1/√n`, то чтобы уменьшить `SE` в k раз, нужно увеличить `n` примерно в `k^2` раз.

Уменьшение `SE` в 3 раза означает, что `√n` должно вырасти в 3 раза. Тогда `n` увеличивается в `3^2 = 9` раз. Это полезно для планирования экспериментов и объясняет, почему 'дожимать' точность становится всё дороже. Ошибка — ожидать линейной зависимости между `n` и точностью.

18Вы считаете среднее по наблюдениям, которые сильно зависимы во времени (например, дневные метрики с автокорреляцией). Что наиболее корректно сказать про интуицию `SE ~ 1/√n` и применение `CLT`?
AЗависимость не влияет: достаточно увеличить `n`, и `SE` будет падать так же быстро
B`CLT` означает, что зависимость исчезает сама при росте `n`
CСильная зависимость уменьшает эффективный размер выборки, поэтому `SE` может падать медленнее и нужно учитывать корреляции при выводах
DПри зависимости `SE` обязательно становится равной 0
Ответ: При зависимости эффективный `n` меньше, поэтому стандартные формулы для `SE` и интуиция `CLT` могут требовать поправок.

Если наблюдения коррелируют, то новая точка приносит меньше новой информации, чем в независимом случае. Тогда реальная неопределённость среднего может быть больше, чем подсказывает наивная формула `SE = σ/√n`. `CLT` в простом виде предполагает независимость (или близкие к этому условия), поэтому при временных рядах нужны специальные методы или аккуратные допущения. Типичная ошибка — считать тысячи коррелированных точек как 'тысячи независимых наблюдений'.

19В A/B тесте `conversion to paid` оценивается как доля успехов `p_hat`. При большом `n` что чаще всего верно про `sampling distribution` `p_hat`?
A`p_hat` всегда имеет то же распределение, что и отдельные наблюдения 0/1
BПо `CLT` `p_hat` примерно нормально распределена, а `SE ≈ √(p(1-p)/n)`
C`p_hat` становится равномерной на [0,1] при росте `n`
D`p_hat` перестаёт быть `случайная величина`, потому что `n` большой
Ответ: Для доли успехов `p_hat` при большом `n` обычно работает нормальная аппроксимация через `CLT`.

Хотя отдельные наблюдения дискретны (0/1), среднее по ним (`p_hat`) при большом `n` ведёт себя почти как нормальная величина. Ширина `sampling distribution` задаётся `SE ≈ √(p(1-p)/n)`, поэтому точность растёт как `1/√n`. Частая ошибка — применять нормальную аппроксимацию при очень малых `n` или при экстремально малой/большой конверсии, когда аппроксимация может быть грубой.

20У вас есть только одна историческая выборка, но нужно прикинуть `sampling distribution` для `x̄` без повторного сбора данных. Какой подход наиболее уместен?
AПоменять местами значения в выборке один раз и считать, что это новое распределение
BПросто взять `SE` равной нулю, потому что данные уже собраны
CИспользовать `CLT` и всегда считать распределение `x̄` строго нормальным, независимо от `n`
DСделать `bootstrap`: многократно ресемплировать наблюдения с возвращением и пересчитывать `x̄`
Ответ: `Bootstrap` эмпирически аппроксимирует `sampling distribution`, имитируя повторные выборки из имеющихся данных.

Когда вы не можете реально повторить сбор данных, `bootstrap` даёт практический способ оценить разброс статистики. Вы много раз строите псевдовыборки и смотрите, как меняется `x̄`, получая приближение `sampling distribution`. Это особенно полезно при сложных статистиках или когда предпосылки нормальности сомнительны. Частая ошибка — использовать `bootstrap` и забывать, что он наследует смещения и структуру данных исходной выборки.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей