Question 1

Если стандартная ошибка среднего подчиняется приближению `SE ~ 1/√n`, как изменится `SE`, если размер выборки увеличится с 400 до 1600 (при том же разбросе данных)?

Accepted Answer

При фиксированном разбросе данных `SE` уменьшается примерно как `1/√n`. Переход от 400 к 1600 — это увеличение `n` в 4 раза. По правилу `SE ~ 1/√n` это даёт уменьшение `SE` в `√4 = 2` раза. Это объясняет убывающую отдачу от роста выборки: чтобы ещё сильнее снизить `SE`, нужно непропорционально больше данных.

Question 2

Что такое выборочное распределение статистики (например, `x̄`) при многократном отборе выборок одного и того же размера?

Accepted Answer

Выборочное распределение — это распределение статистики, если эксперимент по отбору выборки повторять много раз. Чтобы говорить о выборочном распределении статистики, нужно представить, что вы снова и снова берёте выборку и каждый раз пересчитываете статистику. Тогда набор полученных значений и есть распределение этой статистики. Частая ошибка — воспринимать распределение исходных наблюдений как распределение `x̄` или другой выборочной статистики. Параметр `μ` — это число, а не распределение, и гистограмма по одной выборке тоже не описывает поведение `x̄` при повторных отборах.

Question 3

Есть `n` независимых наблюдений с дисперсией `σ^2`. Как корректно описать, как меняются дисперсии статистик `S = ΣXi` и `x̄` при росте `n`?

Accepted Answer

Сумма накапливает разброс, а среднее его усредняет: `Var(S)` растёт примерно как `nσ^2`, а `Var(x̄)` падает как `σ^2/n`. Для независимых наблюдений дисперсия суммы складывается, поэтому `Var(S)` растёт примерно линейно с `n`. Среднее делит сумму на `n`, поэтому его дисперсия уменьшается как `1/n`, что напрямую связано с уменьшением стандартной ошибки как `1/√n`. Это помогает интуитивно отличать поведение агрегатов: «сумма» и «среднее» ведут себя противоположно по точности. Ошибка — думать, что любое агрегирование автоматически делает показатель стабильнее.

Question 4

При фиксированном размере выборки `n` стандартная ошибка среднего связана с разбросом данных как `SE = σ/√n`. Если стандартное отклонение метрики `σ` выросло в 2 раза, что произойдёт с `SE`?

Accepted Answer

По формуле `SE = σ/√n` при фиксированном `n` `SE` растёт пропорционально `σ`. Если метрика стала более шумной (больше `σ`), то и среднее будет менее стабильным между повторными выборками. При этом размер выборки не компенсирует рост шума сам по себе. Практический вывод: для более шумных метрик нужно больше `n`, чтобы добиться той же точности `x̄`. Ошибка — сравнивать точность экспериментов, глядя только на `n` и игнорируя разброс данных.

Question 5

Пусть `X` — `случайная величина` с дисперсией `σ^2`, а `x̄` — среднее n независимых наблюдений `X1..Xn`. Чему равна `Var(x̄)`?

Accepted Answer

У среднего дисперсия уменьшается как `1/n`, то есть `Var(x̄)=σ^2/n` при независимости. Сумма независимых наблюдений накапливает дисперсию, но деление на `n` при вычислении среднего 'усредняет' шум. Поэтому `Var(x̄)` меньше, чем `Var(X)`, и становится тем меньше, чем больше `n`. Типичная ошибка — думать, что среднее 'не меняет' разброс или уменьшает его как `1/√n` на уровне дисперсии, хотя `1/√n` относится к стандартному отклонению (`SE`).

Случайные величины и выборочные распределения: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика