Дискретные распределения: вопросы для собеседования (часть 4)
Бернулли, биномиальное, пуассоновское, геометрическое распределения — модели для подсчёта событий и успехов. На собеседовании спрашивают, когда применять каждое из них: сколько покупок в час (Пуассон), какова вероятность трёх успехов из десяти попыток (биномиальное). Конкретные примеры из бизнеса ценятся особенно.
Вопросы 16–20 из 20
16Какое утверждение наиболее точно передает интуицию `Geometric(p)` для числа `trial` до первого `success`?
AПосле любого числа `failure` шанс `success` в следующем `trial` остается `p`, поэтому прошлые `trial` не меняют шанс успеха следующей попытки
BВ `Geometric(p)` случайная величина — число `success` в фиксированном `n`
CВ `Geometric(p)` моделируют число `event` за интервал с параметром `λ`
DВ `Geometric(p)` шанс `success` растет с каждым новым `trial`
Ответ: `Geometric(p)` имеет свойство `memoryless`: после `failure` шанс `success` в следующем `trial` все еще `p`.
Это значит, что количество прошлых неудачных попыток не меняет шанс успеха на следующей, если `p` постоянен. Поэтому `Geometric(p)` хорошо описывает повторяющиеся попытки одинакового качества, например повторный запрос к API. Если `p` меняется по мере попыток, то простая `Geometric(p)` перестает быть хорошей аппроксимацией.
17Для одного бинарного `trial` вы используете `Bernoulli(p)`. Какое выражение соответствует `variance` такого исхода?
Ответ: Для `Bernoulli(p)` `variance` равна `p*(1-p)`.
`variance` максимальна около `p = 0.5` и уменьшается, когда `p` близок к 0 или 1. Интуитивно, когда `success` почти никогда или почти всегда, неопределенности меньше. Понимание `variance` полезно при планировании размера выборки для метрик 0/1.
18Для потока ошибок за минуту вы используете `Poisson(λ)`. Какое утверждение про `mean` и `variance` верно в этой модели?
A`mean` равна `λ` и `variance` тоже равна `λ`
B`mean` равна `p`, а `variance` равна `p*(1-p)`
C`mean` равна `n*p`, а `variance` равна `n*p*(1-p)`
D`mean` всегда 0, если `λ` меньше 1
Ответ: В `Poisson(λ)` и `mean`, и `variance` равны `λ`.
Это означает, что разброс счетчика `event` растет вместе с уровнем потока. Если на данных `variance` существенно больше `mean`, это может быть сигналом неоднородной интенсивности или кластеризации `event`. Тогда для аналитики стоит задуматься о другом интервале наблюдения или иной модели.
19Вы считаете число регистраций как `event` за каждые 10 минут, при этом число посетителей в эти 10 минут не фиксировано. Какое распределение лучше отражает задачу: сколько `event` пришло за интервал при допущении постоянной интенсивности `λ`?
A`Poisson(λ)`
B`Binomial(n,p)`
C`Geometric(p)`
D`Bernoulli(p)`
Ответ: Когда моделируют количество `event` за интервал при интенсивности `λ`, используют `Poisson(λ)`.
В такой постановке интервал фиксирован, а число `event` случайно — это типичный сценарий для `Poisson(λ)`. Если бы вместо этого у вас было фиксированное `n` попыток и шанс `success` равен `p`, тогда подходил бы `Binomial(n,p)`. Важно согласовать, что фиксировано: интервал времени или `n` `trial`.
20Когда часто используют `Poisson(λ)` как приближение к `Binomial(n,p)` для числа `success`?
AКогда `n` маленькое, а `p` близко к 1
BКогда `n` маленькое, а `p` большое, чтобы было больше `success`
CКогда `n` большое, `p` маленькое, и `λ = n*p` умеренное
DКогда шанс `success` заметно меняется от `trial` к `trial`
Ответ: При `n` большом и `p` малом, когда `λ = n*p`, `Poisson(λ)` часто хорошо аппроксимирует `Binomial(n,p)`.
Интуитивно, много редких `success` по большим `n` дают счетчик событий, похожий на поток `event`. В такой ситуации работать с `Poisson(λ)` бывает удобнее, особенно если `n` трудно фиксировать, а `λ` стабилен для интервала. Важно помнить, что это аппроксимация, и при больших `p` она может давать заметную ошибку.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в TelegramДругие темы: Теория вероятностей