Непрерывные распределения: вопросы для собеседования (часть 2)
Нормальное, экспоненциальное, равномерное распределения — основа статистического моделирования. На собеседовании просят нарисовать плотность, посчитать вероятность попадания в интервал, объяснить правило трёх сигм. Знание свойств основных распределений необходимо для понимания статистических тестов.
Вопросы 6–10 из 20
6Что верно для `Uniform(a,b)`?
A`density` постоянна на интервале, `mean` находится посередине между `a` и `b`, а `quantile` меняется линейно по уровню.
B`density` растёт по мере приближения к `b`, поэтому `quantile` всегда ближе к `b`.
C`variance` не зависит от `b`, потому что все значения равновероятны.
D`probability` в точке `a` больше 0, потому что это граница.
Ответ: У `Uniform(a,b)` `density` постоянна, поэтому `cdf` и `quantile` меняются линейно на интервале.
Равномерная модель означает отсутствие предпочтительных значений внутри диапазона, поэтому `density` одинакова для всех точек интервала. Из-за этого `cdf` растёт равномерно, и `quantile` легко интерпретируется как пропорциональная позиция внутри интервала. При этом, как и у любой непрерывной модели, `probability` ровно в точке равна 0.
7Вы моделируете время до следующего отказа сервиса, если риск отказа в каждый момент примерно постоянный и прошлое время без отказов не меняет будущее (свойство `memoryless` (свойство «без памяти»)). Какую модель выбрать?
A`Uniform(a,b)`
B`Normal(μ,σ)`
CСмесь `Uniform(a,b)` и `Normal(μ,σ)`
D`Exponential(λ)`
Ответ: Постоянный `rate` и свойство `memoryless` (свойство «без памяти») естественно ведут к модели `Exponential(λ)`.
`Exponential(λ)` часто используют, когда событие может произойти в любой момент с примерно постоянной интенсивностью, и прошлое не влияет на будущее в смысле `conditional probability`. В такой модели параметр `λ` задаёт частоту событий, а типичный масштаб ожидания связан с `mean`. Если по данным видно, что риск растёт или падает со временем, то предпосылка постоянного `rate` нарушается, и стоит пересматривать модель.
8Вам нужно быстро смоделировать момент времени, когда пользователь случайно открывает приложение в пределах фиксированного окна 10 минут, и нет данных о пиках внутри окна. Какое распределение выглядит разумным первым приближением?
A`Normal(μ,σ)`
B`Exponential(λ)`
C`Uniform(a,b)`
DНельзя использовать `density` из-за малого окна.
Ответ: Если внутри короткого интервала нет причин предпочитать какие-то моменты, `Uniform(a,b)` — удобная стартовая модель.
Равномерная модель означает постоянную `density` по времени внутри окна и отсутствие выделенных участков. Это хорошее допущение, когда данных мало и вы хотите избежать лишних гипотез о форме. Когда появятся наблюдения, можно проверять, не смещается ли `quantile` или не появляется ли форма, ближе к `Normal(μ,σ)` или другому семейству.
9Если `X` имеет `Normal(μ,σ)`, чему равна `probability` того, что `X` ровно равен своему медианному `quantile` (50-й `quantile`)?
AОна равна 0.5, потому что медианный `quantile` делит `probability` пополам.
BОна равна значению `density` в этой точке.
CОна зависит от `variance` и обычно больше 0.
DОна равна 0, потому что для непрерывной модели `probability` в точке равна 0.
Ответ: Для непрерывных распределений `probability` в точке равна 0, даже если точка является `quantile`.
Медианный `quantile` говорит про разделение `probability` массы слева и справа, но не делает точечную вероятность ненулевой. В непрерывных моделях ненулевая `probability` появляется только на интервале значений. Поэтому корректно говорить о `probability` быть меньше порога или попасть в диапазон, а не о `probability` ровно одного значения.
10Для непрерывной модели с `density` как получить `probability`, что значение лежит между `a` и `b`?
AСравнить `density` в точках `a` и `b` и выбрать большее как `probability`.
BВзять `density` в точке `a` как `probability`.
CСложить `density` в точках `a` и `b` и считать это `probability`.
DВычислить `area` под `density` на интервале между `a` и `b` или эквивалентно взять разность `cdf`.
Ответ: `Probability` на интервале — это `area` под `density` (или разность `cdf`), а не значение `density` в точке.
В непрерывных распределениях `probability` всегда относится к диапазону значений, а не к одному значению. Поэтому правильный способ получить `probability` для интервала — вычислить `area` под `density` на этом интервале. Практически это часто делают через `cdf`, потому что разность значений `cdf` сразу даёт `probability` попадания в диапазон.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в TelegramДругие темы: Теория вероятностей