Статистика и теория вероятностей: вопросы на собеседовании аналитика
Что спрашивают по статистике
Статистика — фундамент аналитики данных. Без неё A/B-тесты превращаются в гадание, а метрики — в случайные числа. На собеседовании проверяют, понимаете ли вы, что стоит за формулами.
Описательная статистика:
- Среднее, медиана, мода — когда какую использовать
- Стандартное отклонение и дисперсия
- Квантили и перцентили
- Выбросы и робастные метрики
Проверка гипотез:
- Нулевая и альтернативная гипотезы
- P-value — что это на самом деле
- Уровень значимости и мощность теста
- T-тест, хи-квадрат, Z-тест — когда какой
- Множественное тестирование
Распределения:
- Нормальное распределение и его свойства
- Биномиальное, Пуассона — применение в аналитике
- Центральная предельная теорема (ЦПТ)
Теория вероятностей:
- Условная вероятность и формула Байеса
- Независимость событий
- Математическое ожидание и дисперсия
- Закон больших чисел
Чего боятся кандидаты (и зря)
Статистика на собеседовании аналитика — это не экзамен в университете. Не нужно доказывать теоремы или помнить таблицы распределений. Нужно:
- Понимать интуицию за формулами
- Знать, когда какой тест применять
- Уметь объяснить результат бизнесу
- Видеть ограничения методов
Например, вопрос «Что такое p-value?» — это не про формулу. Это про то, можете ли вы объяснить: «p-value = 0.03 означает, что при отсутствии реального эффекта такой результат или более экстремальный наблюдался бы в 3% случаев».
Примеры вопросов
Статистика
Что означает стандартное отклонение? Среднее отклонение значений от среднего. Чем больше — тем сильнее разброс данных.
Что такое Центральная предельная теорема? Сумма (и среднее) большого числа независимых случайных величин стремится к нормальному распределению — даже если исходные величины распределены как угодно.
Что означает уровень значимости 0.05? Вероятность ошибки I рода не превышает 5%. То есть мы допускаем 5% шанс отклонить верную нулевую гипотезу.
Когда медиана лучше среднего? Когда в данных есть выбросы. Средняя зарплата в компании = 500K, если CEO получает 50M. Медиана покажет типичное значение.
Теория вероятностей
Вероятность выпадения «орла» при честной монете? 0.5 — классика, но от неё отталкиваются более сложные задачи.
События A и B независимы. Как найти P(A∩B)? P(A) · P(B). Независимость = знание одного события не меняет вероятность другого.
Формула Байеса — для чего она? P(A|B) = P(B|A) · P(A) / P(B). Позволяет обновить вероятность гипотезы при получении новых данных. Пример: вероятность болезни при положительном тесте.
3 монеты: 2 обычные и 1 с двумя орлами. Выбрали наугад, бросили — выпал орёл. Какова вероятность, что монета «двойная»? 2/3. Классическая задача на Байеса.
В Карьернике вопросы по статистике и вероятностям разделены на два отдельных раздела — можно тренировать каждый блок независимо.
Другие темы
- Подготовка к собеседованию аналитика данных
- Вопросы по SQL на собеседовании
- Вопросы по Python на собеседовании
- A/B тестирование: вопросы на собеседовании
- Продуктовая аналитика: собеседование
- Задачи на логику для аналитика
Как готовиться
Начните с интуиции — прежде чем запоминать формулы, убедитесь, что понимаете: зачем нужна дисперсия? Что даёт ЦПТ? Почему p-value ≠ вероятность гипотезы?
Разберите ЦПТ и закон больших чисел — это два столпа, на которых стоит вся прикладная статистика. Если понимаете их — остальное ложится легко.
Выучите формулу Байеса через примеры — не абстрактно, а на задачах: тесты на болезнь, спам-фильтры, монеты с двумя орлами.
Свяжите с A/B-тестами — проверка гипотез, p-value, мощность теста — это прямое применение статистики. Если готовитесь к обоим блокам параллельно — они усиливают друг друга.
FAQ
Насколько глубоко нужно знать статистику для аналитика?
Для junior — базовый уровень: среднее vs медиана, что такое p-value, ЦПТ. Для middle — проверка гипотез, выбор теста, интерпретация CI. Для senior — бутстрап, байесовский подход, causal inference.
Нужно ли помнить формулы наизусть?
Не все. Но ключевые (дисперсия, формула Байеса, p-value) нужно уметь записать и объяснить. Формулу t-статистики гуглить ок, а что такое уровень значимости — нет.
Как отличаются разделы «Статистика» и «Теория вероятностей» в Карьернике?
Теория вероятностей — классические задачи на комбинаторику, условную вероятность, Байеса. Статистика — описательная статистика, распределения, проверка гипотез. Темы связаны, но тренировать их можно независимо.