Непрерывные распределения: вопросы для собеседования (часть 4)
Нормальное, экспоненциальное, равномерное распределения — основа статистического моделирования. На собеседовании просят нарисовать плотность, посчитать вероятность попадания в интервал, объяснить правило трёх сигм. Знание свойств основных распределений необходимо для понимания статистических тестов.
Вопросы 16–20 из 20
16Сервис моделирует время до следующего входящего запроса как `Exponential(λ)`. Вы уже не видели запросов 1 минуту. Какое утверждение про `conditional probability` увидеть следующий запрос позже, чем через ещё 30 секунд соответствует свойству `memoryless` (свойство «без памяти»)?
AОна уменьшается, потому что уже прошла 1 минута.
BОна равна `probability` ждать больше 30 секунд с начала ожидания, потому что `Exponential(λ)` является `memoryless` (свойство «без памяти»).
CОна равна значению `density` в точке 30 секунд.
DОна равна `mean` минус 30 секунд.
Ответ: `Exponential(λ)` обладает свойством `memoryless` (свойство «без памяти»), поэтому условное распределение остатка не зависит от прошедшего времени.
Если модель `Exponential(λ)` применима, то знание, что вы уже ждали 1 минуту, не меняет `probability` ждать ещё 30 секунд. Это свойство удобно в задачах про время до события, но важно проверять применимость предположения о постоянном `rate`. Если `rate` меняется со временем, `memoryless` (свойство «без памяти») обычно нарушается, и модель нужно пересмотреть.
17Время ожидания ответа оператора моделируется как `Exponential(λ)`. Клиент уже ждёт 3 минуты. Что верно про `conditional probability` ждать ещё больше 2 минут?
AИз-за свойства `memoryless` (свойство «без памяти») она равна `probability` ждать больше 2 минут с начала ожидания.
BОна обязательно меньше, чем `probability` ждать больше 2 минут с начала, потому что часть ожидания уже прошла.
CОна равна значению `density` в точке 2 минуты.
DОна зависит только от прошедших 3 минут и не зависит от `λ`.
Ответ: `Exponential(λ)` обладает свойством `memoryless` (свойство «без памяти»), поэтому `conditional probability` зависит только от будущего интервала.
Свойство `memoryless` (свойство «без памяти») означает, что уже прошедшее время ожидания не меняет распределение оставшегося времени. Поэтому `conditional probability` ждать ещё больше 2 минут совпадает с `probability` ждать больше 2 минут с самого начала. Это не означает, что среднее ожидание маленькое или большое само по себе: масштаб задаётся `λ` через `mean`.
18Какая пара утверждений про `cdf` и `density` наиболее корректна?
A`cdf` в точке `x` даёт `probability` значения не больше `x`, а `density` описывает, как эта `probability` распределена по оси и интегрируется до 1.
B`density` в точке равна `probability` в точке, а `cdf` всегда постоянна.
C`cdf` измеряет `variance`, а `density` измеряет `mean`.
D`cdf` и `density` — это одно и то же, просто разные названия.
Ответ: `cdf` даёт накопленную `probability`, а `density` — локальную «интенсивность» и сама по себе не равна `probability`.
`cdf` удобно интерпретировать как долю `probability` массы слева от порога, поэтому через неё легко получать `quantile`. `density` показывает, где масса распределения более концентрирована, но её нужно интегрировать, чтобы получить `probability` на интервале. Из-за этого сравнение `density` в точках не заменяет сравнение вероятностей для диапазонов.
19На графике `density` видно, что около значения `t` `density` почти постоянна на маленьком интервале. Как корректно приблизить `probability` попасть в этот маленький интервал?
AВзять `density` в точке `t` и назвать это `probability`.
BУмножить `density` около `t` на ширину интервала, получив `area` и тем самым `probability`.
CРазделить `density` на `variance`.
DВзять `quantile` и вычесть `mean`.
Ответ: Для малого интервала `probability` можно оценить как `area`, то есть `density` умножить на ширину интервала.
Интуиция такая же, как у площади прямоугольника: высота — это `density`, ширина — длина интервала, произведение даёт приближение `area`. Это работает, когда `density` мало меняется внутри интервала. При больших интервалах нужно учитывать изменение `density`, и тогда точнее работать через `cdf` или численное интегрирование. Важно помнить: `density` в точке не равна `probability`.
20Два времени выполнения запроса моделируются как `Normal(μ,σ)` с одинаковым `μ`, но в системе B `σ` больше. В какой системе больше `probability` увидеть очень большие отклонения от `μ`?
AВ системе A, потому что `mean` одинаковый.
BОдинаково, потому что `μ` одинаковый.
CВ системе B, потому что больше `σ`, значит больше `variance` и выше `probability` больших отклонений от `μ`.
DНельзя сравнивать, потому что `density` не определена.
Ответ: При фиксированном `μ` больший `σ` означает большую `variance` и больше `probability` больших отклонений.
У `Normal(μ,σ)` увеличение `σ` делает распределение шире: больше массы уходит в хвосты. Это означает более высокую `probability` увидеть значения далеко от `μ`, даже если `mean` одинаковый. В продуктовых метриках это часто проявляется как больше редких, но очень больших задержек, что влияет на верхние `quantile`.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в TelegramДругие темы: Теория вероятностей