Question 1

Пусть `X̄` — среднее по выборке. Рассмотрим точечную оценку `θ_hat_n = X̄ + 1/n` для параметра `θ = E[X]`. Как корректно описать её свойства?

Accepted Answer

Оценка может быть смещённой при конечном `n`, но всё равно быть `состоятельность`, если `bias` убывает к 0. Добавка `1/n` даёт `E[θ_hat_n]=θ+1/n`, то есть есть `bias`. Но при росте `n` этот `bias` исчезает, и поведение становится почти как у `X̄`, которая обычно состоятельна. Поэтому `θ_hat_n` можно считать состоятельной, хотя она не является строго несмещённой на конечных выборках. Ошибка — думать, что любое смещение автоматически ломает свойства на больших выборках.

Question 2

Вы применяете `MLE`, но понимаете, что модель распределения приблизительная (например, данные с тяжёлыми хвостами, а вы используете `Normal(μ,σ)`). Что корректнее ожидать от `MLE`?

Accepted Answer

`MLE` оптимизирует правдоподобие внутри модели, поэтому при неверной модели точечная оценка может быть системно смещена. Если модель не соответствует данным, `MLE` всё равно подберёт параметры, которые лучше всего объясняют наблюдения в рамках этой модели. Это может быть полезным приближением, но интерпретация параметров становится осторожной, и свойства вроде `несмещённость` могут не выполняться. Типичная ошибка — воспринимать оценку `MLE` как 'истину' без проверки предпосылок и диагностики. Часто помогает выбрать более подходящую модель или использовать робастный подход к оцениванию.

Question 3

Вы оцениваете параметр `μ` в модели `Normal(μ,σ)` и выбираете точечную оценку: выборочное среднее или медиану. Если нормальность верна и сильных выбросов нет, какая оценка обычно более эффективна (интуитивно)?

Accepted Answer

В нормальной модели выборочное среднее обычно более эффективно (интуитивно), чем медиана, за счёт меньшей `variance`. Если предпосылка `Normal(μ,σ)` корректна, среднее использует информацию о всех наблюдениях и часто даёт более точную оценку `μ`. Медиана выигрывает в робастности, но может проигрывать по `variance`, когда выбросов нет. Поэтому выбор зависит от данных и цели: точность при нормальности или устойчивость к хвостам. Ошибка — автоматически выбирать медиану 'на всякий случай', не понимая, что это может увеличить шум.

Question 4

Две оценки параметра `θ` обе имеют свойство несмещённости. У `θ_hat_A` дисперсия меньше, чем у `θ_hat_B` на том же размере выборки. Что можно сказать про эффективность (интуитивно)?

Accepted Answer

При одинаковой несмещённости более эффективная оценка (интуитивно) обычно означает меньшую `variance`. Эффективность интуитивно про то, насколько точно оценка использует данные: меньше колебаний при той же информации — лучше. Если обе оценки несмещённые, сравнение часто сводится к дисперсии: меньшая `variance` даёт более стабильные результаты. Частая путаница — воспринимать эффективность как скорость вычислений или сложность формулы.

Question 5

Вы выбираете способ оценить средний доход пользователя: (A) усечённое среднее (снижает влияние выбросов) — может добавить `bias`, но уменьшает `variance`; (B) обычное среднее — меньше `bias`, но более шумное. Какой принцип помогает сравнить такие точечные оценки по качеству?

Accepted Answer

Для выбора между `bias` и `variance` используйте `MSE = bias^2 + variance` на вашей задаче. Небольшой `bias` может быть оправдан, если он сильно снижает `variance` и делает метрику стабильнее. `MSE` объединяет оба компонента и позволяет сравнивать методы без иллюзии, что существует одна 'идеальная' оценка. Практическая ловушка — оптимизировать только несмещённость, игнорируя шум, особенно на малых выборках. В продуктовой аналитике часто важна воспроизводимость решения, а не идеальная теоретическая точность.

Точечные оценки и MLE: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика