Что такое случайная величина, дискретная vs непрерывная, PMF, PDF, CDF — базовые понятия, без которых невозможно говорить о распределениях и статистике. На собеседовании спрашивают, чем PDF отличается от PMF, как найти вероятность через CDF и что значит «распределение случайной величины».
Если `F(10)=0.9`, то 90% вероятности лежит слева от 10, то есть X не превышает 10 с вероятностью 0.9. Это не говорит, что X равна 10 с вероятностью 0.9, потому что точечная вероятность зависит от дискретности. Для непрерывных величин `P(X=10)=0`, а для дискретных может быть ненулевой скачок `CDF`. Поэтому важно уточнять тип X.
Подробный разбор →`PMF` задаёт `P(X=x)` для дискретных значений, поэтому каждая вероятность должна быть >=0. Кроме того, сумма `P(X=x)` по всем возможным x должна равняться 1, иначе модель не описывает полный набор исходов. Это базовый `sanity-check` при чтении табличных распределений. Для непрерывных моделей аналогичная идея выражается через площадь под `PDF`, но это другой случай.
Подробный разбор →Когда исходы нечисловые, их неудобно агрегировать и сравнивать, но индикатор делает это возможным. Для Y можно явно задать `PMF` и работать с вероятностями вроде `P(Y=1)`. В аналитике такой приём описывает события типа покупка/не покупка и помогает связывать их с частотой и средним. Это не делает процесс непрерывным и не требует `PDF`.
Подробный разбор →Непрерывная модель описывает вероятности через площадь под `PDF`. У одной точки нет длины, поэтому площадь над одной точкой равна 0, что и даёт `P(X=a)=0`. На практике обычно интересуются вероятностями интервалов, например `P(a<X<=b)` для малого диапазона вокруг a.
Подробный разбор →Вероятность на интервале — это площадь под `PDF`, поэтому важно, чтобы общая площадь была 1, а не значения в отдельных точках. При узком распределении плотность может быть высокой и превышать 1, но площадь на малом интервале остаётся корректной. Типичная ошибка — путать `PDF(x)` с `P(X=x)`, которое в непрерывном случае равно 0.
Подробный разбор →В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать статистику в Telegram