Задачи на вероятность на собеседовании
Почему вероятность — обязательная тема
Аналитик данных работает с неопределённостью каждый день. Оценка статистической значимости A/B-теста, расчёт вероятности оттока, прогнозирование конверсии — всё это требует понимания теории вероятностей. На собеседовании задачи на вероятность проверяют не умение подставлять формулы, а способность рассуждать в условиях неопределённости.
Формат вопросов варьируется: от простых задач на классическую вероятность до контринтуитивных парадоксов, где интервьюер хочет увидеть, как вы справляетесь с результатом, противоречащим интуиции.
Задачи на вероятность на собеседовании — это проверка аналитического мышления. Интервьюер не ждёт мгновенного ответа, но хочет видеть чёткую логику: от определения пространства исходов до финального расчёта.
Классическая вероятность
Классическая вероятность — отношение числа благоприятных исходов к общему числу равновозможных исходов. P(A) = |A| / |S|, где |A| — количество благоприятных исходов, |S| — размер пространства.
Пример. В урне 5 красных и 3 синих шара. Вероятность вытащить красный: 5 / 8 = 0,625. Задача элементарная, но интервьюер может усложнить: «Два шара вытащили, не возвращая. Какова вероятность, что оба красных?» Ответ: 5/8 * 4/7 = 20/56 = 5/14.
Ключевой момент — с возвращением или без. При выборке без возвращения пространство исходов уменьшается после каждого шага. Это частая ловушка на собеседовании.
Условная вероятность и формула Байеса
Условная вероятность P(A|B) — вероятность события A при условии, что B уже произошло. Формула: P(A|B) = P(A и B) / P(B).
Классическая задача. Тест на заболевание имеет точность 99% (true positive rate) и ложноположительный результат в 5% случаев. Заболеванием болеет 1% населения. Тест показал положительный результат. Какова вероятность, что человек действительно болен?
Решение через формулу Байеса: P(болен|+) = P(+|болен) * P(болен) / P(+). P(+) = P(+|болен) * P(болен) + P(+|здоров) * P(здоров) = 0,99 * 0,01 + 0,05 * 0,99 = 0,0099 + 0,0495 = 0,0594. Итого: P(болен|+) = 0,0099 / 0,0594 = 16,7%.
Контринтуитивный результат: даже с «точностью 99%» положительный тест означает лишь 17% вероятности болезни. Эта задача проверяет, понимаете ли вы base rate fallacy — ошибку игнорирования базовой частоты.
Задача Монти Холла
Классика собеседований. Три двери: за одной приз, за двумя — ничего. Вы выбираете дверь. Ведущий, знающий расположение приза, открывает одну из оставшихся дверей (пустую). Стоит ли менять выбор?
Ответ — да, менять выгодно. Начальная вероятность угадать — 1/3. Вероятность, что приз за другой дверью — 2/3. Открытие пустой двери ведущим не меняет эти вероятности, а лишь концентрирует 2/3 на оставшейся двери.
Эта задача проверяет не математику, а готовность принять контринтуитивный результат и обосновать его. Полезный приём: рассмотрите крайний случай — 100 дверей, вы выбрали одну, ведущий открыл 98 пустых. Менять?
Парадокс дней рождения
В группе из скольких человек вероятность совпадения дней рождения превышает 50%? Интуиция подсказывает «около 180» — половина от 365. Правильный ответ — 23 человека.
Решение: проще посчитать вероятность того, что все дни рождения разные, и вычесть из единицы. Для n человек: P(все разные) = 365/365 * 364/365 * 363/365 * ... * (365 - n + 1)/365. При n = 23 эта вероятность падает ниже 50%.
На собеседовании достаточно объяснить логику подсчёта — точные вычисления не требуются.
Типичные ошибки кандидатов
- Путают P(A|B) и P(B|A) — вероятность дождя при облаках не равна вероятности облаков при дожде. Эту ошибку совершают даже опытные аналитики.
- Забывают про base rate — при редком событии даже точный тест даёт много ложноположительных результатов.
- Не рассматривают полное пространство исходов — пропускают часть вариантов, занижая знаменатель.
- Доверяют интуиции в контринтуитивных задачах — вместо расчёта пытаются «угадать» ответ.
Приём для собеседования: если задача кажется простой и ответ очевиден — остановитесь и проверьте. Многие задачи на вероятность специально построены так, чтобы интуитивный ответ оказался неверным.
Как готовиться
Начните с трёх ключевых тем: классическая вероятность (подсчёт исходов), условная вероятность (формула Байеса), независимость событий. Решите по 5-7 задач на каждую тему. Задачи на вероятность часто требуют навыков комбинаторики для подсчёта исходов. Все логические темы — в разделе задачи на логику.
FAQ
Какие задачи на вероятность спрашивают чаще всего?
Три лидера: задача с формулой Байеса (тест на заболевание или аналог), задача Монти Холла и задачи на подсчёт вероятности при выборке без возвращения. Парадокс дней рождения встречается реже, но если спрашивают — ожидают объяснение логики, а не точный ответ.
Нужно ли заучивать формулу Байеса?
Да, формулу Байеса нужно знать наизусть. Но важнее уметь строить таблицу: расписать все комбинации (болен/здоров, тест+/тест-) с их вероятностями. Таблица делает расчёт наглядным и снижает риск ошибки.
Как объяснить контринтуитивный ответ, если интервьюер сомневается?
Используйте крайние случаи. Для Монти Холла — 100 дверей вместо трёх. Для парадокса дней рождения — подсчитайте число пар (при 23 людях — 253 пары), каждая из которых может совпасть. Крайние случаи делают контринтуитивные результаты очевидными.