Question 1

Если события `A` и `B` являются `independent`, какая формула верна?

Accepted Answer

При `independence` совместная вероятность равна произведению маргинальных: `P(A∩B)=P(A)*P(B)`. Это свойство позволяет вычислять совместные вероятности без полной `joint distribution`, но только когда предположение независимости разумно. Если `P(A|B)` отличается от `P(A)`, то `independence` нарушается, и формула не работает. В интервью важно уметь проговорить, что независимость — сильное предположение, которое нужно проверять или обосновывать.

Question 2

Какое утверждение корректно различает `LLN` и `CLT`?

Accepted Answer

`LLN` отвечает за сходимость `sample mean`, а `CLT` — за форму `sampling distribution` и `normal approximation`. По `LLN` `sample mean` на большой выборке обычно близка к `expected value`, но это не говорит, как распределена ошибка. `CLT` добавляет, что после стандартизации ошибка `sample mean` ведёт себя примерно как `normal distribution`. Поэтому `LLN` объясняет стабильность, а `CLT` — почему так часто применяют `normal approximation`.

Question 3

Представьте, что вы 100 раз независимо собираете выборку пользователей и каждый раз считаете `sample mean` выручки. Что говорит `CLT` про `sampling distribution` этого `sample mean` при большом размере выборки?

Accepted Answer

`CLT` описывает, что `sampling distribution` `sample mean` при большом размере выборки становится близка к `normal distribution`. Важно, что `CLT` говорит о распределении оценок при повторении выборки, а не о распределении самих трат. Из этого следует практический инструмент: `normal approximation` для построения `confidence interval` вокруг `sample mean`. Поэтому `CLT` постоянно появляется в разговорах об оценках и неопределённости.

Question 4

Вы посчитали `sample mean` по 20 пользователям, и построенная `normal approximation` выглядит подозрительно: оценка сильно меняется при добавлении пары пользователей. Что наиболее разумно сказать?

Accepted Answer

Для малого размера выборки `CLT` может давать слабую `normal approximation`, особенно если данные скошены или есть выбросы. `CLT` — это приближение, которое обычно становится лучше при росте размера выборки. Если несколько наблюдений резко меняют `sample mean`, значит шум ещё велик и итоговая оценка нестабильна. Практически это сигнал не делать слишком уверенных выводов и собирать больше данных.

Question 5

Вы считаете средний доход на пользователя как `sample mean`. Данные сильно скошены, но у вас большая выборка. Почему аналитики часто строят `confidence interval` для `sample mean` через `normal approximation`?

Accepted Answer

`CLT` даёт основание использовать `normal approximation` для `confidence interval` вокруг `sample mean` при большом размере выборки. Даже если исходный доход сильно скошен, среднее по большой выборке ведёт себя более регулярно. `CLT` описывает, что ошибка `sample mean` имеет примерно нормальную форму после стандартизации, а значит можно оценить неопределённость. Это работает лучше при больших объёмах и при отсутствии экстремальных выбросов, доминирующих в `sum`.

Совместные распределения и ЦПТ: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Теория вероятностей