Что такое случайная величина, дискретная vs непрерывная, PMF, PDF, CDF — базовые понятия, без которых невозможно говорить о распределениях и статистике. На собеседовании спрашивают, чем PDF отличается от PMF, как найти вероятность через CDF и что значит «распределение случайной величины».
Различие между строгими и нестрогими границами важно для дискретных величин, где `P(X=a)` может быть ненулевой. В непрерывном случае добавление или исключение граничных точек не меняет вероятность интервала. Это полезный `sanity-check`, когда вы переходите к вычислению через `CDF` или через площадь под `PDF`.
Событие `P(X>=1)` включает значения 1 и 2, поэтому нужно сложить `P(X=1)` и `P(X=2)`. Это отличается от непрерывного случая, где используют `PDF` и площадь на интервале. Здесь также можно использовать `CDF`: если известна `F(0)`, то `P(X>=1)=1-F(0)`.
Медиана — это значение, которое делит распределение пополам по накопленной вероятности. Через `CDF` это означает, что `P(X<=m)=0.5`. Это не означает, что `P(X=m)=0.5`, потому что для непрерывного случая точечная вероятность равна 0. В реальных данных медиана и среднее могут различаться при асимметрии распределения.
`CDF` определяется как `F(x)=P(X<=x)`, то есть накопленная вероятность слева от порога. Тогда вероятность попасть между a и b — это разница накопленных вероятностей. Для непрерывных X выбор строгих или нестрогих границ обычно не меняет ответ, потому что `P(X=a)=0`.
По определению `F(t)=P(X<=t)`, то есть это вся вероятность слева от порога. Тогда вероятность справа — это дополнение до 1. В практике это используют для доли запросов медленнее порога или времени ожидания дольше SLA. Для дискретной величины формула тоже применима, но нужно помнить, что `P(X=t)` может быть ненулевой.
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram