Точечные оценки и MLE: вопросы для собеседования (часть 2)
Метод максимального правдоподобия (MLE), несмещённость, состоятельность, эффективность — свойства оценок, которые определяют их качество. На собеседовании просят вывести MLE для простого распределения или объяснить, почему выборочное среднее — хорошая оценка. Это теоретическая база, которая лежит под всеми статистическими тестами.
Вопросы 6–10 из 20
6Как лучше всего описать `состоятельность` последовательности оценок `θ_hat_n`?
AДля любого `n` выполняется `E[θ_hat_n] = θ`
BДля любого `n` `variance` равна 0
CПри росте `n` оценка приближается к параметру: `θ_hat_n` сходится к `θ` (например, по вероятности)
DОценка является `MLE`, значит она состоятельна по определению
Ответ: `Состоятельность` — это способность оценки становиться всё ближе к `θ` при росте размера выборки.
Состоятельная оценка использует информацию так, что вероятность большого отклонения от `θ` уменьшается при росте `n`. Она может быть смещённой на малых выборках, но смещение может стремиться к 0. Частая ошибка — ожидать от состоятельности высокой точности уже на маленьком `n`.
7Что делает метод `MLE` для получения точечной оценки параметра?
AВыбирает параметр, который минимизирует `p-value`
BВыбирает параметр, при котором наблюдённые данные имеют максимальное `likelihood`
CВыбирает параметр так, чтобы `bias` был равен 0
DВыбирает параметр, который всегда минимизирует `variance`
Ответ: `MLE` выбирает параметр, который делает наблюдённые данные наиболее правдоподобными в рамках модели.
В `MLE` вы задаёте вероятностную модель и ищете значение параметра, максимизирующее `likelihood` наблюдений. Это не про вероятность самого параметра, а про то, насколько хорошо параметр объясняет данные. Типичная ошибка — считать, что `MLE` автоматически гарантирует `несмещённость` или устойчивость к выбросам.
8В A/B тесте в группе A 30 оплат из 200 пользователей. Если модель — Бернулли с параметром `p` (это `conversion to paid`), какая точечная оценка `MLE` для `p`?
A`p_hat = 30/200`
B`p_hat = 30`
C`p_hat = 200`
D`p_hat = 1 - 30/200`
Ответ: Для Бернулли `MLE` для `p` совпадает с выборочной долей `p_hat = k/n`.
Интуитивно параметр `p` должен отражать наблюдаемую частоту успехов, чтобы данные были наиболее правдоподобны. Поэтому `MLE` равен доле оплат в выборке. Это классический пример, где `MLE` совпадает с понятной статистикой. Типичная ошибка — делить на число событий или сессий вместо числа пользователей-наблюдений.
9Для `Normal(μ,σ)` `MLE` для `σ^2` часто записывают как `σ_hat^2 = (1/n) Σ (xi - x̄)^2`, а несмещённую оценку как `s^2 = (1/(n-1)) Σ (xi - x̄)^2`. Какое утверждение верно?
AОбе формулы всегда дают одинаковый результат при любом `n`
B`MLE` для `σ^2` всегда имеет свойство `несмещённость`
CНесмещённая оценка всегда меньше, чем `MLE`, потому что делитель больше
DДелитель `n-1` корректирует смещение из-за использования `x̄`, и при большом `n` разница между оценками становится небольшой
Ответ: Разница `n` vs `n-1` — это корректировка смещения оценки дисперсии, заметная на малых выборках.
`MLE` оптимизирует `likelihood`, но это не гарантирует `несмещённость` на конечном `n`. При вычислении дисперсии мы используем `x̄`, и из-за этого сумма квадратов в среднем немного занижает истинную `σ^2`, что и компенсирует деление на `n-1`. На больших выборках различие почти исчезает, но важно понимать, какую именно формулу вы применяете в отчётах. Частая ошибка — сравнивать метрики, посчитанные разными определениями.
10В метрике дохода есть редкие огромные значения (выбросы). Вам нужна стабильная точечная `оценка` 'типичного' пользователя для мониторинга эффекта `pricing`. Какое решение наиболее разумно?
AВсегда использовать обычное среднее, потому что оно обязательно несмещённое
BУдалить все большие значения вручную без фиксированного правила, чтобы 'не мешали'
CВсегда использовать `MLE`, не анализируя распределение данных
DИспользовать робастную оценку (например, медиану или усечённое среднее) и понимать, что возможен небольшой `bias`, но меньше `variance` и выше устойчивость к выбросам
Ответ: Робастная `оценка` может снизить шум (`variance`) и сделать мониторинг устойчивее, даже ценой небольшого `bias`.
При тяжёлых хвостах среднее сильно зависит от редких экстремальных значений, поэтому `variance` метрики растёт и выводы становятся нестабильными. Медиана или усечённое среднее уменьшают влияние выбросов и часто полезны для операционного мониторинга `pricing`. Важно заранее определить правило и применять его последовательно, иначе появляется риск подгонки. Ошибка — считать, что робастный метод всегда лучше: иногда бизнес-цель требует именно среднего дохода, а не 'типичного'.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram