Question 1

Какое утверждение наиболее точно передает интуицию `Geometric(p)` для числа `trial` до первого `success`?

Accepted Answer

`Geometric(p)` имеет свойство `memoryless`: после `failure` шанс `success` в следующем `trial` все еще `p`. Это значит, что количество прошлых неудачных попыток не меняет шанс успеха на следующей, если `p` постоянен. Поэтому `Geometric(p)` хорошо описывает повторяющиеся попытки одинакового качества, например повторный запрос к API. Если `p` меняется по мере попыток, то простая `Geometric(p)` перестает быть хорошей аппроксимацией.

Question 2

Для одного бинарного `trial` вы используете `Bernoulli(p)`. Какое выражение соответствует `variance` такого исхода?

Accepted Answer

Для `Bernoulli(p)` `variance` равна `p*(1-p)`. `variance` максимальна около `p = 0.5` и уменьшается, когда `p` близок к 0 или 1. Интуитивно, когда `success` почти никогда или почти всегда, неопределенности меньше. Понимание `variance` полезно при планировании размера выборки для метрик 0/1.

Question 3

Для потока ошибок за минуту вы используете `Poisson(λ)`. Какое утверждение про `mean` и `variance` верно в этой модели?

Accepted Answer

В `Poisson(λ)` и `mean`, и `variance` равны `λ`. Это означает, что разброс счетчика `event` растет вместе с уровнем потока. Если на данных `variance` существенно больше `mean`, это может быть сигналом неоднородной интенсивности или кластеризации `event`. Тогда для аналитики стоит задуматься о другом интервале наблюдения или иной модели.

Question 4

Вы считаете число регистраций как `event` за каждые 10 минут, при этом число посетителей в эти 10 минут не фиксировано. Какое распределение лучше отражает задачу: сколько `event` пришло за интервал при допущении постоянной интенсивности `λ`?

Accepted Answer

Когда моделируют количество `event` за интервал при интенсивности `λ`, используют `Poisson(λ)`. В такой постановке интервал фиксирован, а число `event` случайно — это типичный сценарий для `Poisson(λ)`. Если бы вместо этого у вас было фиксированное `n` попыток и шанс `success` равен `p`, тогда подходил бы `Binomial(n,p)`. Важно согласовать, что фиксировано: интервал времени или `n` `trial`.

Question 5

Когда часто используют `Poisson(λ)` как приближение к `Binomial(n,p)` для числа `success`?

Accepted Answer

При `n` большом и `p` малом, когда `λ = n*p`, `Poisson(λ)` часто хорошо аппроксимирует `Binomial(n,p)`. Интуитивно, много редких `success` по большим `n` дают счетчик событий, похожий на поток `event`. В такой ситуации работать с `Poisson(λ)` бывает удобнее, особенно если `n` трудно фиксировать, а `λ` стабилен для интервала. Важно помнить, что это аппроксимация, и при больших `p` она может давать заметную ошибку.

Дискретные распределения: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Теория вероятностей