Теория вероятностей для аналитика: что нужно для собеседования
Зачем аналитику теория вероятностей
Теория вероятностей — основа статистики и A/B-тестирования. Без неё невозможно понять, почему работает проверка гипотез, как устроены доверительные интервалы и что на самом деле означает p-value.
Где аналитик сталкивается с вероятностями:
- A/B-тесты: вероятность ложноположительного результата
- Fraud detection: вероятность того, что транзакция мошенническая
- Прогнозирование: вероятность оттока пользователя
- Качество данных: вероятность ошибки в данных
На собеседованиях вопросы по вероятности встречаются в 30–40% случаев, особенно для продуктовых аналитиков.
Базовые понятия
Вероятность события
P(A) — число от 0 до 1. P(A) = 0 — невозможное событие, P(A) = 1 — достоверное.
P(A) = число благоприятных исходов / общее число исходов (для равновероятных исходов).
Сложение вероятностей
P(A или B) = P(A) + P(B) - P(A и B)
Для взаимоисключающих событий: P(A или B) = P(A) + P(B)
Умножение вероятностей
Для независимых событий: P(A и B) = P(A) × P(B)
Для зависимых: P(A и B) = P(A) × P(B|A)
Дополнение
P(хотя бы одно) = 1 - P(ни одного)
Это самый полезный приём на собеседованиях. Вместо сложного прямого подсчёта — считаете «ни одного» и вычитаете из единицы.
Условная вероятность
P(A|B) — вероятность события A при условии, что B произошло.
P(A|B) = P(A и B) / P(B)
Пример из аналитики: P(покупка | посетил карточку товара) = 3200 / 100000 = 3.2%. Это конверсия — условная вероятность.
Теорема Байеса
P(A|B) = P(B|A) × P(A) / P(B)
Ключевая формула для аналитика. Позволяет «перевернуть» условную вероятность.
Классическая задача: редкая болезнь
Болезнь встречается у 0.1% населения. Тест на болезнь: чувствительность 99% (P(+|болен) = 0.99), специфичность 95% (P(-|здоров) = 0.95). Человек получил положительный результат. Какова вероятность, что он болен?
P(болен|+) = P(+|болен) × P(болен) / P(+)
P(+) = 0.99 × 0.001 + 0.05 × 0.999 = 0.05094
P(болен|+) = 0.00099 / 0.05094 ≈ 1.94%
Контринтуитивный результат: несмотря на точный тест, вероятность болезни меньше 2%. Причина: болезнь слишком редкая, ложноположительных результатов больше, чем истинно положительных.
Для аналитика: тот же принцип в fraud detection — если мошенничество редкое (0.1%), даже хороший классификатор даст много ложных срабатываний.
Больше задач: задачи на вероятность для собеседования.
Формула полной вероятности
P(A) = Σ P(A|Bi) × P(Bi)
Пример: магазин получает 70% трафика из поиска (конверсия 2%) и 30% из рекламы (конверсия 5%). Полная вероятность покупки:
P(покупка) = 0.02 × 0.70 + 0.05 × 0.30 = 0.014 + 0.015 = 0.029
Для аналитика: это основа расчёта взвешенных метрик по сегментам.
Основные распределения
Биномиальное распределение
Число «успехов» в n независимых испытаниях. Описывает конверсию.
P(X = k) = C(n,k) × p^k × (1-p)^(n-k)
Пример: из 100 пользователей какова вероятность, что ровно 5 купят (конверсия 3%)? → P(X=5) = C(100,5) × 0.03^5 × 0.97^95 ≈ 0.10
Геометрическое распределение
Номер первого «успеха». P(X = k) = (1-p)^(k-1) × p
Пример: вероятность найти баг в отчёте = 0.15. Вероятность, что первый баг найдётся в 4-м отчёте: 0.85^3 × 0.15 ≈ 9.2%.
Пуассоновское распределение
Число событий за период. Параметр λ — среднее число событий.
Пример: в среднем 3 обращения в поддержку в час. Какова вероятность 0 обращений? P(X=0) = e^(-3) × 3^0 / 0! = 0.0498 ≈ 5%.
Нормальное распределение
Описывает средние значения выборок (по ЦПТ). Основа для z-тестов и доверительных интервалов.
Подробнее: нормальное распределение.
Задачи, которые задают на собеседованиях
Задача 1: Парадокс дней рождения
В группе из 25 человек — какова вероятность совпадения дней рождения?
P(все разные) = 365/365 × 364/365 × ... × 341/365 ≈ 0.43
P(совпадение) = 1 - 0.43 = 0.57
Ответ: больше 50%. Контринтуитивно, но объясняется большим числом пар: C(25,2) = 300.
Задача 2: Независимые проверки
Три алгоритма проверяют данные. Вероятность пропустить ошибку: 10%, 15%, 20%. Какова вероятность, что хотя бы один обнаружит?
P(все пропустят) = 0.10 × 0.15 × 0.20 = 0.003
P(хотя бы один обнаружит) = 1 - 0.003 = 0.997
Для аналитика: принцип redundancy — несколько независимых проверок дают высокую надёжность.
Задача 3: Атрибуция через Байеса
Магазин: 70% трафика из поиска (конверсия 2%), 30% из рекламы (конверсия 5%). Случайный покупатель совершил покупку. Откуда он вероятнее пришёл?
P(реклама|покупка) = (0.05 × 0.30) / 0.029 ≈ 51.7%
Хотя рекламного трафика только 30%, среди покупателей его больше половины.
Как готовиться
- Выучите 5 ключевых формул: сложение, умножение, дополнение, Байес, полная вероятность
- Решайте задачи: 10 задач на вероятность
- Связывайте с аналитикой: каждую формулу привязывайте к рабочему контексту (конверсия, fraud, A/B-тесты)
- Тренируйтесь объяснять: интервьюер оценивает ход мысли, а не арифметику
Читайте также
- Задачи на вероятность для собеседования
- P-value простыми словами
- Нормальное распределение
- Статистика для аналитика данных
- Задачи на логику для аналитика
FAQ
Нужно ли аналитику знать теорию вероятностей?
Базовый уровень — да. Условная вероятность, теорема Байеса и основные распределения — это минимум. Без них невозможно понять A/B-тестирование и интерпретировать результаты статистических тестов.
Насколько глубоко спрашивают на собеседованиях?
Обычно 1–2 задачи уровня «теорема Байеса» или «парадокс дней рождения». Для продуктового аналитика — чуть глубже (связь с A/B-тестами). Для junior — могут не спрашивать совсем.
Как связаны теория вероятностей и A/B-тестирование?
Напрямую. A/B-тест — это проверка гипотезы о том, что две конверсии (вероятности) различаются. P-value — это вероятность. Доверительный интервал — диапазон вероятных значений. Без понимания вероятностей A/B-тесты превращаются в магию.
Какие формулы нужно знать наизусть?
Теорему Байеса, формулу полной вероятности и приём через дополнение (1 - P(ни одного)). Эти три формулы покрывают 90% задач на собеседованиях.
Потренируйтесь решать задачи на вероятность — откройте тренажёр с вопросами по статистике, вероятности и A/B-тестам.