Непрерывные распределения: вопросы для собеседования (часть 3)
Нормальное, экспоненциальное, равномерное распределения — основа статистического моделирования. На собеседовании просят нарисовать плотность, посчитать вероятность попадания в интервал, объяснить правило трёх сигм. Знание свойств основных распределений необходимо для понимания статистических тестов.
Вопросы 11–15 из 20
11В мониторинге задержек написано: 95-й `quantile` времени ответа равен 400 мс. Как это правильно интерпретировать?
AЭто `mean` времени ответа.
BЭто значение `density` в точке 400 мс.
CПримерно 95% ответов имеют время не больше 400 мс по `cdf`.
DЭто `probability` того, что время ответа равно ровно 400 мс.
Ответ: `Quantile` уровня 95% — это порог, ниже которого находится 95% `probability` массы по `cdf`.
Если 95-й `quantile` равен 400 мс, это означает, что большая часть распределения лежит левее этого порога. Такое утверждение относится к накопленной `probability` по `cdf`, а не к значению `density` в точке. Важно помнить, что `quantile` не говорит, насколько велики самые худшие 5% наблюдений, он лишь задаёт порог.
12В каком случае предположение `Uniform(a,b)` наиболее разумно как стартовая модель?
AКогда значения симметричны вокруг `μ` и отклонения описываются `σ`.
BКогда известны границы `a` и `b` и нет причин считать какие-то значения внутри интервала более вероятными, то `density` можно принять постоянной.
CКогда время ожидания имеет свойство `memoryless`.
DКогда в данных ожидается очень высокая `variance` из-за редких выбросов.
Ответ: `Uniform(a,b)` уместно, когда известны границы `a` и `b` и `density` внутри интервала можно считать одинаковой.
Равномерная модель полезна, когда вы знаете, что величина лежит в определённом диапазоне, но нет информации о предпочтениях внутри него. Тогда постоянная `density` — простое и прозрачное допущение. В реальных задачах его часто используют как базовое приближение, а затем проверяют, нет ли пиков или смещений через данные и `quantile`.
13Как влияет увеличение `λ` в `Exponential(λ)` на время ожидания?
A`mean` увеличится, ожидания станут длиннее.
B`mean` уменьшится, а `density` будет сильнее сосредоточена около нуля, потому что `rate` выше.
C`variance` станет отрицательной.
DРаспределение станет `Uniform(a,b)`.
Ответ: В `Exponential(λ)` больший `λ` соответствует большему `rate` и меньшему `mean` времени ожидания.
Интуитивно `λ` можно понимать как параметр частоты событий: чем он больше, тем быстрее обычно наступает событие. Поэтому уменьшается `mean` времени ожидания и больше `probability mass` оказывается около нуля. При этом форма остаётся экспоненциальной, а свойство `memoryless` сохраняется.
14Команда задаёт SLA по задержке как порог, равный 95-му `quantile` задержки. При стабильной системе что это означает на языке `probability`?
AОколо 95% запросов должны иметь задержку ниже порога по `cdf`.
BОколо 95% запросов должны быть выше порога по `cdf`.
CЭто означает, что `mean` равен порогу.
DЭто означает, что `density` в пороге равна 0.95.
Ответ: Порог на уровне 95-го `quantile` означает, что `cdf` в пороге равна 0.95, то есть 95% `probability` массы ниже.
Такой SLA говорит про долю запросов, а не про максимальное время ответа: оставшиеся 5% могут быть существенно хуже. Поэтому полезно смотреть не только один `quantile`, но и другие уровни `quantile`, чтобы понять хвост. Также важно различать `quantile` и `mean`: они могут вести себя по-разному при изменении хвостов.
15Два распределения `Normal(μ,σ)` имеют одинаковый `μ`, но у второго `σ` больше. Как будет выглядеть второе по сравнению с первым?
AУ второго `variance` меньше и `density` выше в центре.
BУ второго `mean` сдвинется вправо.
CУ второго `density` станет дискретной.
DУ второго `variance` больше, распределение шире, а пик `density` ниже.
Ответ: Более большой `σ` в `Normal(μ,σ)` означает большую `variance` и более широкую `density`.
При фиксированном `μ` параметр `σ` отвечает за разброс: чем он больше, тем больше типичные отклонения от центра. Это увеличивает `variance` и делает график `density` более распластанным, потому что общая `area` под `density` должна оставаться равной 1. В аналитике это означает большую неопределённость и более широкий диапазон значений `quantile`.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в TelegramДругие темы: Теория вероятностей