Вопросы по теме «Случайные величины и выборочные распределения»
Выборочное распределение среднего, стандартная ошибка, t-распределение — концепции, которые связывают теорию вероятностей с практическим статистическим выводом. На собеседовании спрашивают, чем стандартная ошибка отличается от стандартного отклонения и как размер выборки влияет на точность оценки.
Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.
Вопросы 1–5 из 20
1Пусть `X1..Xn` — независимые наблюдения с `E[X]=μ`. Что верно про математическое ожидание выборочного среднего `x̄`?
A`E[x̄] = μ`
B`E[x̄] = μ/n`
C`E[x̄] = n*μ`
D`E[x̄]` не существует, потому что `x̄` — `случайная величина`
Ответ: Среднее выборки в типичных условиях является несмещённой оценкой среднего популяции: `E[x̄]=μ`.
Ожидание оператора среднего линейно, поэтому `E[x̄]` совпадает с `μ`, если наблюдения одинаково распределены и имеют ожидание `μ`. Это не означает, что `x̄` всегда равно `μ` на одной выборке: разброс описывается `SE` и `sampling distribution`. Частая ошибка — смешивать утверждение про среднее по многим выборкам с утверждением про одну конкретную выборку.
2Вы посчитали `выборочное среднее` `x̄` по случайной выборке пользователей. Как корректно трактовать `x̄`?
A`x̄` — `случайная величина`, потому что при повторном отборе выборки значение изменится
B`x̄` — фиксированная константа и не зависит от того, какую выборку вы взяли
C`x̄` — параметр популяции, который не меняется между выборками
D`x̄` — это распределение исходных значений метрики, а не число
Ответ: Любая статистика, посчитанная по случайной выборке, сама является случайной величиной.
Статистика `x̄` — функция от выборки, а выборка случайна, значит и результат случаен. Если мысленно повторять отбор выборок тем же способом, вы получите набор значений `x̄`, то есть его `sampling distribution`. Частая ошибка — путать параметр популяции (например, `μ`) и оценку по одной конкретной выборке.
3Вы 1000 раз берёте случайные выборки размера n из одной популяции и каждый раз считаете `x̄`. Что из перечисленного является `sampling distribution` для `x̄`?
AГистограмма исходных значений метрики в одной выборке
BГистограмма 1000 значений `x̄`, посчитанных по разным выборкам
CГрафик изменения метрики по дням в продакшене
DСписок всех возможных значений параметра `μ`
Ответ: `Sampling distribution` — это распределение статистики (например, `x̄`) при повторных выборках.
Распределение данных описывает, как ведёт себя отдельное наблюдение, а `sampling distribution` описывает, как 'плавает' статистика по выборкам. Даже если данные сильно разбросаны, распределение `x̄` обычно уже. Типичная путаница — считать, что гистограмма исходных данных и есть распределение `x̄`.
4Что корректнее всего отличает стандартное отклонение данных от стандартной ошибки среднего `SE`?
AЭто одно и то же, просто разные названия
BСтандартное отклонение описывает разброс наблюдений, а `SE` описывает разброс `x̄` как `случайная величина` между выборками
C`SE` всегда больше стандартного отклонения, потому что включает неопределённость
DСтандартное отклонение относится только к `sampling distribution`, а `SE` — к данным
Ответ: Стандартное отклонение — про разброс данных, а `SE` — про разброс статистики `x̄`.
Стандартное отклонение измеряет вариативность отдельных наблюдений внутри выборки. `SE` показывает, насколько будет 'плавать' `x̄`, если вы повторите отбор выборки тем же способом, то есть описывает `sampling distribution` среднего. Частая ошибка — принимать стандартное отклонение за точность оценки среднего и переоценивать неопределённость.
5Вы увеличили размер выборки в эксперименте, а оценка среднего эффекта считается как `x̄`. Что происходит с разбросом `x̄` между повторениями эксперимента (то есть с `SE`)?
AРазброс уменьшается, потому что `SE` падает примерно как `1/√n`
BРазброс растёт, потому что больше данных создаёт больше шума
CРазброс не меняется, потому что среднее не зависит от `n`
DРазброс становится равным выборочной дисперсии данных
Ответ: Чем больше `n`, тем уже `sampling distribution` среднего и тем меньше `SE`.
Среднее 'усредняет' случайные колебания, и при росте `n` оно становится более стабильным между повторениями. Это и есть интуиция `SE ~ 1/√n`: точность растёт, но с убывающей отдачей. Частая ошибка — ожидать, что удвоение `n` удвоит точность, хотя на деле эффект слабее.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram