Задачи на вероятность: разбор типовых задач с собеседований
Зачем на собеседованиях спрашивают вероятность
Теория вероятностей — фундамент аналитики. A/B-тесты, прогнозные модели, оценка рисков, интерпретация метрик — всё это построено на вероятностном мышлении. Интервьюер не проверяет, помните ли вы формулы из учебника. Он проверяет, способны ли вы структурировать задачу, выбрать правильный подход и объяснить результат.
На собеседованиях аналитиков задачи на вероятность встречаются в двух форматах. Первый — классические задачи, которые решаются на бумаге за 2-3 минуты. Второй — продуктовые кейсы, где нужно применить вероятностное мышление к реальной ситуации. В этой статье разберём оба типа.
Если вы также готовитесь к вопросам по статистике и логике, задачи на вероятность будут хорошим дополнением — темы пересекаются.
Ниже — 10 задач с подробными решениями. Каждая задача снабжена рекомендацией, как подавать ответ на собеседовании.
Задача 1. Классическая вероятность события
Условие. В базе данных 200 клиентов. Из них 45 совершили покупку в последнем месяце. Выбираем случайного клиента для интервью. Какова вероятность, что он совершил покупку?
Решение.
Это классическая вероятность — отношение числа благоприятных исходов к общему числу исходов.
P(покупка) = 45 / 200 = 0,225
Ответ: 0,225, или 22,5%.
На собеседовании. Задача тривиальная, и именно в этом подвох. Интервьюер хочет услышать не только число, но и оговорки: «Предполагаем, что выборка случайная и каждый клиент с равной вероятностью будет выбран. В реальности стоило бы учесть сегментацию — активные клиенты могут быть более доступны для интервью, и тогда вероятность будет выше». Такой комментарий показывает продуктовое мышление.
Задача 2. Вероятность хотя бы одного события (дополнение)
Условие. Аналитик отправляет отчёт трём руководителям. Вероятность того, что каждый конкретный руководитель прочитает отчёт в тот же день — 0,4. Чтения независимы. Какова вероятность, что хотя бы один руководитель прочитает отчёт в день отправки?
Решение.
Когда нужно найти «хотя бы одно», проще считать через дополнение. Вместо того чтобы перебирать варианты (ровно один, ровно два, все три), посчитаем вероятность обратного события — «никто не прочитал».
Вероятность того, что конкретный руководитель НЕ прочитает: 1 - 0,4 = 0,6.
Вероятность того, что никто из трёх не прочитает (события независимы):
P(никто) = 0,6 * 0,6 * 0,6 = 0,216
Вероятность хотя бы одного:
P(хотя бы один) = 1 - 0,216 = 0,784
Ответ: 0,784, или 78,4%.
На собеседовании. Обязательно озвучьте, почему считаете через дополнение: «Проще найти вероятность противоположного события и вычесть из единицы — это избавляет от перебора вариантов». Также уточните допущение о независимости: в реальности чтение отчётов руководителями может быть коррелировано (один переслал другому, совещание и т.д.).
Задача 3. Биномиальное распределение — рекламный ролик
Условие. Рекламный ролик показывают 5 случайным пользователям. Вероятность того, что ролик понравится конкретному пользователю — 0,6. Показы независимы. Какова вероятность, что ролик понравится ровно 3 из 5 пользователей?
Решение.
Это биномиальное распределение: фиксированное число испытаний (n = 5), два исхода (понравился / не понравился), постоянная вероятность успеха (p = 0,6), испытания независимы.
Формула:
P(X = k) = C(n, k) * p^k * (1 - p)^(n - k)
Подставляем n = 5, k = 3, p = 0,6:
C(5, 3) = 5! / (3! * 2!) = 10
P(X = 3) = 10 * 0,6^3 * 0,4^2
Считаем по шагам:
- 0,6^3 = 0,216
- 0,4^2 = 0,16
- 10 * 0,216 * 0,16 = 10 * 0,03456 = 0,3456
Ответ: 0,3456, или примерно 34,6%.
На собеседовании. Начните с того, что распознаете схему Бернулли: «Здесь фиксированное число независимых испытаний с двумя исходами и постоянной вероятностью — это биномиальное распределение». Затем запишите формулу и подставьте значения. Если интервьюер спросит продолжение — «а какова вероятность, что понравится хотя бы 3?» — сложите P(3) + P(4) + P(5) или посчитайте через дополнение: 1 - P(0) - P(1) - P(2).
Задача 4. Условная вероятность — шары без возвращения
Условие. В корзине 8 белых и 4 чёрных шара. Последовательно без возвращения достают 2 шара. Какова вероятность, что оба шара белые?
Решение.
Всего шаров: 8 + 4 = 12.
Вероятность, что первый шар белый:
P(1-й белый) = 8 / 12 = 2/3
Если первый шар белый, в корзине осталось 7 белых и 4 чёрных — всего 11 шаров.
Вероятность, что второй шар тоже белый при условии, что первый был белый:
P(2-й белый | 1-й белый) = 7 / 11
Вероятность, что оба белые:
P(оба белые) = (8/12) * (7/11) = 56/132 = 14/33
В десятичном виде: 14/33 = 0,4242...
Ответ: 14/33, или примерно 42,4%.
На собеседовании. Ключевое здесь — объяснить, почему нельзя просто умножить 8/12 на 8/12. После первого извлечения состав корзины изменился. Это условная вероятность. Проговорите это явно: «Второе событие зависит от первого, потому что шар не возвращается. Поэтому использую формулу умножения для зависимых событий: P(A и B) = P(A) * P(B|A)».
Задача 5. Теорема Байеса — редкая болезнь
Условие. Редкая болезнь встречается у 0,1% населения. Тест на болезнь имеет чувствительность 99% (если человек болен, тест положительный в 99% случаев) и специфичность 95% (если человек здоров, тест отрицательный в 95% случаев). Человек получил положительный результат теста. Какова вероятность, что он действительно болен?
Решение.
Это классическая задача на теорему Байеса и парадокс ложноположительных результатов. Интуиция подсказывает, что 99% — значит, почти наверняка болен. Но это неверно.
Обозначим:
- P(Б) = 0,001 — вероятность болезни
- P(Здоров) = 0,999
- P(+|Б) = 0,99 — чувствительность
- P(+|Здоров) = 0,05 — вероятность ложноположительного результата (1 - специфичность)
Нужно найти P(Б|+) — вероятность болезни при положительном тесте.
По теореме Байеса:
P(Б|+) = P(+|Б) * P(Б) / P(+)
Сначала найдём P(+) — полную вероятность положительного теста:
P(+) = P(+|Б) * P(Б) + P(+|Здоров) * P(Здоров)
P(+) = 0,99 * 0,001 + 0,05 * 0,999 = 0,00099 + 0,04995 = 0,05094
Теперь:
P(Б|+) = 0,00099 / 0,05094 = 0,01943...
Ответ: примерно 1,94%. Несмотря на положительный тест, вероятность болезни меньше 2%.
На собеседовании. Эта задача — фаворит интервьюеров, потому что проверяет интуицию. Начните с того, что результат контринтуитивен, и объясните почему: «Болезнь редкая, поэтому число ложноположительных результатов среди здоровых людей намного больше, чем число истинно положительных среди больных. На каждого реально больного с положительным тестом приходятся десятки здоровых с тем же результатом». Можно проиллюстрировать на 100 000 человек: 100 больных (99 получат +), 99 900 здоровых (4 995 получат +). Итого 5 094 положительных, из них только 99 реально больны — это 99/5094 = 1,94%.
Для аналитика этот принцип напрямую применим к fraud detection, модерации контента, медицинской аналитике — везде, где редкое событие выявляется несовершенным классификатором.
Задача 6. Геометрическое распределение — первый успех
Условие. Аналитик проверяет отчёты на ошибки. Вероятность обнаружения ошибки в каждом отдельном документе — 0,15. Документы проверяются последовательно и независимо. Какова вероятность, что первая ошибка обнаружится ровно в 4-м документе?
Решение.
Это геометрическое распределение — первый успех на k-м испытании. «Успех» здесь — обнаружение ошибки.
Формула:
P(X = k) = (1 - p)^(k-1) * p
Подставляем p = 0,15, k = 4:
P(X = 4) = 0,85^3 * 0,15
Считаем:
- 0,85^2 = 0,7225
- 0,85^3 = 0,7225 * 0,85 = 0,614125
- 0,614125 * 0,15 = 0,09211875
Ответ: примерно 0,092, или 9,2%.
На собеседовании. Объясните логику формулы: «Первые три документа без ошибок — вероятность этого 0,85^3 — а четвёртый с ошибкой, вероятность 0,15. Поскольку проверки независимы, умножаем». Если спросят про среднее — математическое ожидание геометрического распределения E(X) = 1/p = 1/0,15 = 6,67. То есть в среднем первая ошибка найдётся примерно в 7-м документе.
Задача 7. Парадокс дней рождения
Условие. В команде аналитиков 25 человек. Какова вероятность, что хотя бы у двоих совпадут дни рождения? Год считаем равным 365 дням, дни рождения равномерно распределены.
Решение.
Считаем через дополнение — найдём вероятность того, что все дни рождения различны.
Первый человек — любой день: 365/365. Второй человек — любой день, кроме дня рождения первого: 364/365. Третий: 363/365. И так далее до 25-го: (365 - 24)/365 = 341/365.
P(все разные) = (365/365) * (364/365) * (363/365) * ... * (341/365)
Это произведение можно записать как:
P(все разные) = 365! / ((365 - 25)! * 365^25) = 365! / (340! * 365^25)
Вычислим приближённо. Удобно использовать логарифмы или последовательное умножение:
P(все разные) = 1 * (1 - 1/365) * (1 - 2/365) * ... * (1 - 24/365)
Результат: P(все разные) = 0,4313
Следовательно:
P(хотя бы одно совпадение) = 1 - 0,4313 = 0,5687
Ответ: примерно 56,9%. В группе из 25 человек вероятность совпадения дней рождения больше половины.
На собеседовании. Контринтуитивный результат — вот что важно. Многие ожидают, что для вероятности 50% нужно около 183 человек (половина от 365). На самом деле достаточно 23 человек для преодоления порога 50%. Объясните механизм: «Дело в числе пар. В группе из 25 человек — C(25, 2) = 300 пар, каждая из которых может совпасть. Именно комбинаторный рост числа пар делает совпадение вероятным уже при малом размере группы». Для аналитика этот принцип важен при оценке коллизий хешей, дублей в данных и пересечений в пользовательских сегментах.
Задача 8. Контроль качества — все элементы без дефектов
Условие. На складе 50 товаров, из которых 5 бракованных. Для проверки случайным образом отбирают 3 товара (без возвращения). Какова вероятность, что все три товара окажутся качественными?
Решение.
Качественных товаров: 50 - 5 = 45.
Используем гипергеометрическое распределение. Нам нужно выбрать 3 товара из 45 качественных, а общий выбор — 3 из 50.
P(все 3 качественные) = C(45, 3) / C(50, 3)
Считаем:
C(45, 3) = 45! / (3! * 42!) = (45 * 44 * 43) / 6 = 85140 / 6 = 14190
C(50, 3) = 50! / (3! * 47!) = (50 * 49 * 48) / 6 = 117600 / 6 = 19600
P = 14190 / 19600 = 0,72397...
Ответ: примерно 72,4%.
На собеседовании. Можно решить и последовательным способом — через условные вероятности:
- P(1-й качественный) = 45/50
- P(2-й качественный | 1-й качественный) = 44/49
- P(3-й качественный | первые два качественные) = 43/48
P = (45/50) * (44/49) * (43/48) = 85140 / 117600 = 0,72398...
Оба подхода дают одинаковый результат. Объясните интервьюеру, что выбрали комбинаторный метод как более компактный, но можете решить и через цепочку условных вероятностей. Это показывает владение разными инструментами.
Задача 9. Полная вероятность — два источника трафика
Условие. Интернет-магазин получает 70% трафика из поиска и 30% из рекламы. Конверсия в покупку: 2% для поискового трафика и 5% для рекламного. Случайный посетитель совершил покупку. Какова вероятность, что он пришёл из рекламы?
Решение.
Сначала найдём полную вероятность покупки:
P(покупка) = P(покупка|поиск) * P(поиск) + P(покупка|реклама) * P(реклама)
P(покупка) = 0,02 * 0,70 + 0,05 * 0,30 = 0,014 + 0,015 = 0,029
Теперь по теореме Байеса найдём вероятность рекламного источника при условии покупки:
P(реклама|покупка) = P(покупка|реклама) * P(реклама) / P(покупка)
P(реклама|покупка) = 0,05 * 0,30 / 0,029 = 0,015 / 0,029 = 0,5172...
Ответ: примерно 51,7%.
На собеседовании. Обратите внимание на практический смысл: хотя рекламный трафик составляет всего 30% от общего потока, среди покупателей его доля — больше половины. Это типичная ситуация при анализе атрибуции. Объясните: «Рекламный трафик конвертируется в 2,5 раза лучше, и этот перевес компенсирует меньший объём. Для бизнеса это значит, что при оценке ROI рекламы нужно учитывать не только её долю в трафике, но и долю в покупках». Такой ответ переводит задачу из абстрактной математики в продуктовый контекст.
Задача 10. Независимые события — цепочка проверок
Условие. Систему мониторинга данных проверяют три независимых алгоритма. Вероятность того, что первый алгоритм пропустит аномалию — 0,10, второй — 0,15, третий — 0,20. Какова вероятность, что аномалия будет обнаружена хотя бы одним алгоритмом?
Решение.
Аномалия будет пропущена всеми тремя алгоритмами с вероятностью:
P(все пропустят) = 0,10 * 0,15 * 0,20 = 0,003
Вероятность обнаружения хотя бы одним:
P(хотя бы один обнаружит) = 1 - 0,003 = 0,997
Ответ: 0,997, или 99,7%.
На собеседовании. Снова работает приём «через дополнение» — проще посчитать вероятность того, что все три системы промахнутся, и вычесть из единицы. Объясните практическую ценность: «Каждый отдельный алгоритм далёк от совершенства, но комбинация трёх независимых проверок даёт надёжность 99,7%. Именно поэтому в промышленных системах используют ансамбли моделей и каскадные проверки». Это демонстрирует понимание принципа redundancy в data engineering.
Как готовиться к задачам на вероятность
Задачи выше покрывают основные типы, которые встречаются на собеседованиях аналитиков. Вот что стоит запомнить:
Пять ключевых приёмов:
- Дополнение. «Хотя бы одно» всегда проще считать как 1 - P(ни одного). Задачи 2, 7 и 10.
- Формула умножения для зависимых событий. Если выбор без возвращения — вероятности меняются. Задачи 4 и 8.
- Теорема Байеса. Переворачивает условную вероятность. Без неё невозможно интерпретировать результаты тестов и классификаторов. Задачи 5 и 9.
- Биномиальное распределение. Когда есть фиксированное число независимых испытаний с двумя исходами. Задача 3.
- Геометрическое распределение. Когда интересует номер первого успеха. Задача 6.
На собеседовании ценят не скорость вычислений, а три вещи:
- Правильную идентификацию типа задачи — какое распределение, какая формула.
- Чёткую структуру решения — условие, формула, подстановка, ответ.
- Связь с практикой — как это применяется в работе аналитика.
Если на каком-то шаге не можете вспомнить точную формулу — не паникуйте. Объясните ход рассуждений словами, обозначьте переменные, запишите логику. Интервьюер оценит мышление, даже если арифметика потребует калькулятора.
Читайте также
- P-value простыми словами
- Нормальное распределение
- Доверительный интервал простыми словами
- Задачи на логику для аналитика
FAQ
Какие задачи на вероятность чаще всего дают на собеседовании аналитика?
Чаще всего спрашивают теорему Байеса (задача про редкую болезнь), условную вероятность, парадокс дней рождения и задачи на биномиальное распределение. Эти темы проверяют умение формализовать задачу и применять базовые формулы.
Нужно ли учить формулы наизусть?
Основные формулы (Байес, биномиальное распределение, формула полной вероятности) стоит знать. Но важнее понимать логику: интервьюер оценит ход рассуждений, даже если вы не вспомните точный коэффициент.
Как решать задачи на вероятность «хотя бы одного события»?
Используйте приём через дополнение: P(хотя бы одно) = 1 − P(ни одного). Это проще, чем считать все варианты напрямую, и работает в большинстве задач на собеседовании.
Зачем аналитику знать теорию вероятностей?
Теория вероятностей лежит в основе A/B-тестирования, fraud detection, оценки качества моделей и атрибуции. Без понимания условной вероятности и распределений невозможно корректно интерпретировать результаты экспериментов.
Потренируйтесь решать задачи на вероятность и статистику в Карьернике — тренажёре для подготовки к собеседованиям аналитиков.