У вас метрика конверсии за день оценивается как доля покупок. Почему оценка на 10000 сессиях обычно менее шумная, чем на 100 сессиях?
AПотому что
CLT заставляет конверсию стремиться к 50% независимо от продуктаBПотому что при большем размере выборки
sample mean (доля) ближе к expected value и реже сильно отклоняется, что соответствует интуиции LLNCПотому что
joint distribution покупок и сессий становится фиксированной и перестаёт менятьсяDПотому что
normal approximation делает данные безошибочнымиПравильный ответ. Чем больше наблюдений, тем стабильнее
sample mean вокруг expected value, что соответствует LLN.Разбор
На маленькой выборке случайность может сильно менять долю: одна дополнительная покупка заметно сдвигает результат. На большой выборке вклад одного события намного меньше, поэтому колебания снижаются. Это одна из причин, почему метрики на малом трафике трудно интерпретировать.
Проверь себя · 1/3разбор после ответа
Вы считаете число кликов за день как
sum по пользователям: каждый пользователь либо кликнул, либо нет. Почему распределение этой sum по дням часто хорошо описывается normal approximation при большом трафике?Ещё вопросы по теме «Совместные распределения и ЦПТ»
- В продуктовой аналитике вы смотрите одновременно `platform` (ios/android) и факт `purchase` (да/нет). Что описывает `joint distribution` (совместное распределение) этих двух признаков?
- Событие `A` — клик по рекламе, событие `B` — покупка. Какое утверждение лучше всего соответствует `independence` между `A` и `B`?
- Вы оцениваете средний чек как `sample mean` по 50 пользователям и затем по 5000 пользователям. Что утверждает `LLN` про поведение `sample mean` при росте размера выборки?
- Что является наиболее точным интуитивным описанием `CLT`?
- Распределение трат на пользователя сильно скошено: много маленьких чеков и редкие большие. Почему для `sample mean` трат по 5000 пользователям часто работает `normal approximation`?
- Все вопросы по «Совместные распределения и ЦПТ» →