Question 1

Что является наиболее точным интуитивным описанием `CLT`?

Accepted Answer

`CLT` объясняет, почему `sampling distribution` стандартизированной `sum` или `sample mean` часто близка к `normal distribution`. Важно, что `CLT` говорит о распределении статистики при повторении выборок, а не о форме исходных данных. Поэтому `CLT` применяют к `sample mean` метрик по пользователям и к суммам событий. Это и есть причина популярности `normal approximation` в аналитике.

Question 2

Вы оцениваете средний чек как `sample mean` по 50 пользователям и затем по 5000 пользователям. Что утверждает `LLN` про поведение `sample mean` при росте размера выборки?

Accepted Answer

По `LLN` `sample mean` сходится к `expected value` при увеличении размера выборки. `LLN` не обещает, что `sample mean` будет монотонно приближаться или совпадёт ровно с `expected value` в конкретный день. Но вероятность больших отклонений уменьшается, и оценка становится стабильнее. Это объясняет, почему `sample mean` по большому числу пользователей обычно менее шумная.

Question 3

Что становится примерно `normal distribution` по смыслу `CLT` при большом размере выборки?

Accepted Answer

`CLT` описывает нормальность `sampling distribution` для `sample mean` или стандартизированной `sum`. Если исходное распределение асимметрично, оно может таким и остаться даже при огромном объёме данных. Но распределение оценок `sample mean` при повторении выборки становится близким к `normal distribution`. Именно это делает `normal approximation` полезной для работы со средними и суммами.

Question 4

У вас есть только `P(A)` и `P(B)` для двух событий. В каком случае вы можете найти `P(A∩B)` без полной `joint distribution`?

Accepted Answer

Без `joint distribution` совместная вероятность вычисляется из `P(A)` и `P(B)` только при `independence`. Если события зависимы, одинаковые `P(A)` и `P(B)` могут соответствовать разным `P(A∩B)`, потому что `joint distribution` устроена по-разному. При `independence` условие не меняет вероятность, и произведение маргиналов даёт совместную: `P(A∩B)=P(A)*P(B)`. На практике независимость — сильное предположение, и его стоит проверять или обосновывать.

Question 5

Вы считаете средний балл по NPS-вопросу как `sample mean` по 50 ответам и по 5000 ответам. Какое утверждение про стабильность оценки наиболее корректно?

Accepted Answer

При большем размере выборки `sampling distribution` `sample mean` становится уже, и оценка стабильнее. Маленькая выборка легко смещается несколькими случайными ответами, поэтому оценка скачет. При большом числе наблюдений вклад одного ответа мал, и колебания снижаются. Это полезно помнить, когда сравниваете метрики по маленьким сегментам.

Совместные распределения и ЦПТ: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: Теория вероятностей