Совместные распределения и ЦПТ: вопросы для собеседования (часть 2)

Совместные распределения, маргинальные распределения, центральная предельная теорема — мост между теорией вероятностей и статистикой. ЦПТ объясняет, почему нормальное распределение так часто встречается и почему работает z-тест. На собеседовании просят сформулировать ЦПТ и привести пример её применения.

Теорема БайесаУсловная вероятностьНепрерывные распределенияКомбинаторикаДискретные распределенияМатематическое ожидание и дисперсияНезависимость событийСлучайные величины: основыМножества и события

Вопросы 610 из 20

6Что является наиболее точным интуитивным описанием `CLT`?
A`CLT` говорит, что `sample mean` всегда равна `expected value`
B`CLT` требует, чтобы исходные данные имели `normal distribution`
C`CLT` описывает `joint distribution` двух событий
D`CLT` говорит, что стандартизированная `sum` (или `sample mean`) имеет примерно `normal distribution`, что позволяет `normal approximation`
Ответ: `CLT` объясняет, почему `sampling distribution` стандартизированной `sum` или `sample mean` часто близка к `normal distribution`.

Важно, что `CLT` говорит о распределении статистики при повторении выборок, а не о форме исходных данных. Поэтому `CLT` применяют к `sample mean` метрик по пользователям и к суммам событий. Это и есть причина популярности `normal approximation` в аналитике.

7Вы оцениваете средний чек как `sample mean` по 50 пользователям и затем по 5000 пользователям. Что утверждает `LLN` про поведение `sample mean` при росте размера выборки?
A`sample mean` обязательно станет равной `expected value` уже при первом увеличении выборки
B`CLT` гарантирует, что `sample mean` станет `normal distribution`, поэтому значение будет точным
C`sample mean` будет всё чаще оказываться близко к `expected value` процесса при росте числа наблюдений
D`joint distribution` чеков и пользователей меняется, поэтому `sample mean` уходит от `expected value`
Ответ: По `LLN` `sample mean` сходится к `expected value` при увеличении размера выборки.

`LLN` не обещает, что `sample mean` будет монотонно приближаться или совпадёт ровно с `expected value` в конкретный день. Но вероятность больших отклонений уменьшается, и оценка становится стабильнее. Это объясняет, почему `sample mean` по большому числу пользователей обычно менее шумная.

8Что становится примерно `normal distribution` по смыслу `CLT` при большом размере выборки?
AСами исходные наблюдения, поэтому данные «становятся нормальными»
B`sampling distribution` стандартизированной `sum` или `sample mean`
C`expected value` процесса
D`joint distribution` любых двух категориальных признаков
Ответ: `CLT` описывает нормальность `sampling distribution` для `sample mean` или стандартизированной `sum`.

Если исходное распределение асимметрично, оно может таким и остаться даже при огромном объёме данных. Но распределение оценок `sample mean` при повторении выборки становится близким к `normal distribution`. Именно это делает `normal approximation` полезной для работы со средними и суммами.

9У вас есть только `P(A)` и `P(B)` для двух событий. В каком случае вы можете найти `P(A∩B)` без полной `joint distribution`?
AВсегда, потому что `P(A∩B)=P(A)+P(B)`
BНикогда, потому что для этого нужен `CLT`
CТолько если `P(A)=P(B)`
DЕсли есть `independence` между событиями, тогда `P(A∩B)=P(A)*P(B)`
Ответ: Без `joint distribution` совместная вероятность вычисляется из `P(A)` и `P(B)` только при `independence`.

Если события зависимы, одинаковые `P(A)` и `P(B)` могут соответствовать разным `P(A∩B)`, потому что `joint distribution` устроена по-разному. При `independence` условие не меняет вероятность, и произведение маргиналов даёт совместную: `P(A∩B)=P(A)*P(B)`. На практике независимость — сильное предположение, и его стоит проверять или обосновывать.

10Вы считаете средний балл по NPS-вопросу как `sample mean` по 50 ответам и по 5000 ответам. Какое утверждение про стабильность оценки наиболее корректно?
AПри 5000 ответах `sample mean` обычно менее шумная, потому что её `sampling distribution` становится уже
BРазмер выборки не влияет на шум `sample mean`
CПо `LLN` `sample mean` становится ровно равной `expected value` и перестаёт меняться
DПо `CLT` исходные ответы становятся `normal distribution`
Ответ: При большем размере выборки `sampling distribution` `sample mean` становится уже, и оценка стабильнее.

Маленькая выборка легко смещается несколькими случайными ответами, поэтому оценка скачет. При большом числе наблюдений вклад одного ответа мал, и колебания снижаются. Это полезно помнить, когда сравниваете метрики по маленьким сегментам.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Теория вероятностей

Теорема БайесаУсловная вероятностьНепрерывные распределенияКомбинаторикаДискретные распределенияМатематическое ожидание и дисперсияНезависимость событийСлучайные величины: основыМножества и события