Question 1

Вы взяли 500 случайных выборок из одной популяции и для каждой посчитали выборочную дисперсию. Что представляет собой гистограмма этих 500 значений?

Accepted Answer

Гистограмма значений статистики по многим выборкам — это её `sampling distribution`. Вы не строите распределение исходных данных, вы строите распределение оценки дисперсии, которая сама является случайной величиной. Такая гистограмма показывает, насколько оценка дисперсии может колебаться от выборки к выборке при фиксированном `n`. Ошибка — сравнивать эту гистограмму напрямую с гистограммой исходных наблюдений и делать выводы о форме данных.

Question 2

Вы хотите уменьшить стандартную ошибку оценки `x̄` в 3 раза. Во сколько раз нужно увеличить размер выборки `n`, если ориентироваться на `SE ~ 1/√n`?

Accepted Answer

Если `SE ~ 1/√n`, то чтобы уменьшить `SE` в k раз, нужно увеличить `n` примерно в `k^2` раз. Уменьшение `SE` в 3 раза означает, что `√n` должно вырасти в 3 раза. Тогда `n` увеличивается в `3^2 = 9` раз. Это полезно для планирования экспериментов и объясняет, почему 'дожимать' точность становится всё дороже. Ошибка — ожидать линейной зависимости между `n` и точностью.

Question 3

Вы считаете среднее по наблюдениям, которые сильно зависимы во времени (например, дневные метрики с автокорреляцией). Что наиболее корректно сказать про интуицию `SE ~ 1/√n` и применение `CLT`?

Accepted Answer

При зависимости эффективный `n` меньше, поэтому стандартные формулы для `SE` и интуиция `CLT` могут требовать поправок. Если наблюдения коррелируют, то новая точка приносит меньше новой информации, чем в независимом случае. Тогда реальная неопределённость среднего может быть больше, чем подсказывает наивная формула `SE = σ/√n`. `CLT` в простом виде предполагает независимость (или близкие к этому условия), поэтому при временных рядах нужны специальные методы или аккуратные допущения. Типичная ошибка — считать тысячи коррелированных точек как 'тысячи независимых наблюдений'.

Question 4

В A/B тесте `conversion to paid` оценивается как доля успехов `p_hat`. При большом `n` что чаще всего верно про `sampling distribution` `p_hat`?

Accepted Answer

Для доли успехов `p_hat` при большом `n` обычно работает нормальная аппроксимация через `CLT`. Хотя отдельные наблюдения дискретны (0/1), среднее по ним (`p_hat`) при большом `n` ведёт себя почти как нормальная величина. Ширина `sampling distribution` задаётся `SE ≈ √(p(1-p)/n)`, поэтому точность растёт как `1/√n`. Частая ошибка — применять нормальную аппроксимацию при очень малых `n` или при экстремально малой/большой конверсии, когда аппроксимация может быть грубой.

Question 5

У вас есть только одна историческая выборка, но нужно прикинуть `sampling distribution` для `x̄` без повторного сбора данных. Какой подход наиболее уместен?

Accepted Answer

`Bootstrap` эмпирически аппроксимирует `sampling distribution`, имитируя повторные выборки из имеющихся данных. Когда вы не можете реально повторить сбор данных, `bootstrap` даёт практический способ оценить разброс статистики. Вы много раз строите псевдовыборки и смотрите, как меняется `x̄`, получая приближение `sampling distribution`. Это особенно полезно при сложных статистиках или когда предпосылки нормальности сомнительны. Частая ошибка — использовать `bootstrap` и забывать, что он наследует смещения и структуру данных исходной выборки.

Случайные величины и выборочные распределения: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика