Теория вероятностей для аналитика: что нужно для собеседования

Зачем аналитику теория вероятностей

Теория вероятностей — основа статистики и A/B-тестирования. Без неё невозможно понять, почему работает проверка гипотез, как устроены доверительные интервалы и что на самом деле означает p-value.

Где аналитик сталкивается с вероятностями:

  • A/B-тесты: вероятность ложноположительного результата
  • Fraud detection: вероятность того, что транзакция мошенническая
  • Прогнозирование: вероятность оттока пользователя
  • Качество данных: вероятность ошибки в данных

На собеседованиях вопросы по вероятности встречаются в 30–40% случаев, особенно для продуктовых аналитиков.

Базовые понятия

Вероятность события

P(A) — число от 0 до 1. P(A) = 0 — невозможное событие, P(A) = 1 — достоверное.

P(A) = число благоприятных исходов / общее число исходов (для равновероятных исходов).

Сложение вероятностей

P(A или B) = P(A) + P(B) - P(A и B)

Для взаимоисключающих событий: P(A или B) = P(A) + P(B)

Умножение вероятностей

Для независимых событий: P(A и B) = P(A) × P(B)

Для зависимых: P(A и B) = P(A) × P(B|A)

Дополнение

P(хотя бы одно) = 1 - P(ни одного)

Это самый полезный приём на собеседованиях. Вместо сложного прямого подсчёта — считаете «ни одного» и вычитаете из единицы.

Условная вероятность

P(A|B) — вероятность события A при условии, что B произошло.

P(A|B) = P(A и B) / P(B)

Пример из аналитики: P(покупка | посетил карточку товара) = 3200 / 100000 = 3.2%. Это конверсия — условная вероятность.

Теорема Байеса

P(A|B) = P(B|A) × P(A) / P(B)

Ключевая формула для аналитика. Позволяет «перевернуть» условную вероятность.

Классическая задача: редкая болезнь

Болезнь встречается у 0.1% населения. Тест на болезнь: чувствительность 99% (P(+|болен) = 0.99), специфичность 95% (P(-|здоров) = 0.95). Человек получил положительный результат. Какова вероятность, что он болен?

P(болен|+) = P(+|болен) × P(болен) / P(+)

P(+) = 0.99 × 0.001 + 0.05 × 0.999 = 0.05094

P(болен|+) = 0.00099 / 0.05094 ≈ 1.94%

Контринтуитивный результат: несмотря на точный тест, вероятность болезни меньше 2%. Причина: болезнь слишком редкая, ложноположительных результатов больше, чем истинно положительных.

Для аналитика: тот же принцип в fraud detection — если мошенничество редкое (0.1%), даже хороший классификатор даст много ложных срабатываний.

Больше задач: задачи на вероятность для собеседования.

Формула полной вероятности

P(A) = Σ P(A|Bi) × P(Bi)

Пример: магазин получает 70% трафика из поиска (конверсия 2%) и 30% из рекламы (конверсия 5%). Полная вероятность покупки:

P(покупка) = 0.02 × 0.70 + 0.05 × 0.30 = 0.014 + 0.015 = 0.029

Для аналитика: это основа расчёта взвешенных метрик по сегментам.

Основные распределения

Биномиальное распределение

Число «успехов» в n независимых испытаниях. Описывает конверсию.

P(X = k) = C(n,k) × p^k × (1-p)^(n-k)

Пример: из 100 пользователей какова вероятность, что ровно 5 купят (конверсия 3%)? → P(X=5) = C(100,5) × 0.03^5 × 0.97^95 ≈ 0.10

Геометрическое распределение

Номер первого «успеха». P(X = k) = (1-p)^(k-1) × p

Пример: вероятность найти баг в отчёте = 0.15. Вероятность, что первый баг найдётся в 4-м отчёте: 0.85^3 × 0.15 ≈ 9.2%.

Пуассоновское распределение

Число событий за период. Параметр λ — среднее число событий.

Пример: в среднем 3 обращения в поддержку в час. Какова вероятность 0 обращений? P(X=0) = e^(-3) × 3^0 / 0! = 0.0498 ≈ 5%.

Нормальное распределение

Описывает средние значения выборок (по ЦПТ). Основа для z-тестов и доверительных интервалов.

Подробнее: нормальное распределение.

Задачи, которые задают на собеседованиях

Задача 1: Парадокс дней рождения

В группе из 25 человек — какова вероятность совпадения дней рождения?

P(все разные) = 365/365 × 364/365 × ... × 341/365 ≈ 0.43

P(совпадение) = 1 - 0.43 = 0.57

Ответ: больше 50%. Контринтуитивно, но объясняется большим числом пар: C(25,2) = 300.

Задача 2: Независимые проверки

Три алгоритма проверяют данные. Вероятность пропустить ошибку: 10%, 15%, 20%. Какова вероятность, что хотя бы один обнаружит?

P(все пропустят) = 0.10 × 0.15 × 0.20 = 0.003

P(хотя бы один обнаружит) = 1 - 0.003 = 0.997

Для аналитика: принцип redundancy — несколько независимых проверок дают высокую надёжность.

Задача 3: Атрибуция через Байеса

Магазин: 70% трафика из поиска (конверсия 2%), 30% из рекламы (конверсия 5%). Случайный покупатель совершил покупку. Откуда он вероятнее пришёл?

P(реклама|покупка) = (0.05 × 0.30) / 0.029 ≈ 51.7%

Хотя рекламного трафика только 30%, среди покупателей его больше половины.

Как готовиться

  1. Выучите 5 ключевых формул: сложение, умножение, дополнение, Байес, полная вероятность
  2. Решайте задачи: 10 задач на вероятность
  3. Связывайте с аналитикой: каждую формулу привязывайте к рабочему контексту (конверсия, fraud, A/B-тесты)
  4. Тренируйтесь объяснять: интервьюер оценивает ход мысли, а не арифметику

Читайте также

FAQ

Нужно ли аналитику знать теорию вероятностей?

Базовый уровень — да. Условная вероятность, теорема Байеса и основные распределения — это минимум. Без них невозможно понять A/B-тестирование и интерпретировать результаты статистических тестов.

Насколько глубоко спрашивают на собеседованиях?

Обычно 1–2 задачи уровня «теорема Байеса» или «парадокс дней рождения». Для продуктового аналитика — чуть глубже (связь с A/B-тестами). Для junior — могут не спрашивать совсем.

Как связаны теория вероятностей и A/B-тестирование?

Напрямую. A/B-тест — это проверка гипотезы о том, что две конверсии (вероятности) различаются. P-value — это вероятность. Доверительный интервал — диапазон вероятных значений. Без понимания вероятностей A/B-тесты превращаются в магию.

Какие формулы нужно знать наизусть?

Теорему Байеса, формулу полной вероятности и приём через дополнение (1 - P(ни одного)). Эти три формулы покрывают 90% задач на собеседованиях.


Потренируйтесь решать задачи на вероятность — откройте тренажёр с вопросами по статистике, вероятности и A/B-тестам.