Статистика и теория вероятностей: вопросы на собеседовании аналитика

Что спрашивают по статистике

Статистика — фундамент аналитики данных. Без неё A/B-тесты превращаются в гадание, а метрики — в случайные числа. На собеседовании проверяют, понимаете ли вы, что стоит за формулами.

Нормальное распределение и p-value

Описательная статистика:

  • Среднее, медиана, мода — когда какую использовать
  • Стандартное отклонение и дисперсия
  • Квантили и перцентили
  • Выбросы и робастные метрики

Проверка гипотез:

  • Нулевая и альтернативная гипотезы
  • P-value — что это на самом деле
  • Уровень значимости и мощность теста
  • T-тест, хи-квадрат, Z-тест — когда какой
  • Множественное тестирование

Распределения:

  • Нормальное распределение и его свойства
  • Биномиальное, Пуассона — применение в аналитике
  • Центральная предельная теорема (ЦПТ)

Теория вероятностей:

  • Условная вероятность и формула Байеса
  • Независимость событий
  • Математическое ожидание и дисперсия
  • Закон больших чисел

Чего боятся кандидаты (и зря)

Статистика на собеседовании аналитика — это не экзамен в университете. Не нужно доказывать теоремы или помнить таблицы распределений. Нужно:

  • Понимать интуицию за формулами
  • Знать, когда какой тест применять
  • Уметь объяснить результат бизнесу
  • Видеть ограничения методов

Например, вопрос «Что такое p-value?» — это не про формулу. Это про то, можете ли вы объяснить: «p-value = 0.03 означает, что при отсутствии реального эффекта такой результат или более экстремальный наблюдался бы в 3% случаев».

Примеры вопросов

Статистика

  1. Что означает стандартное отклонение? Среднее отклонение значений от среднего. Чем больше — тем сильнее разброс данных.

  2. Что такое Центральная предельная теорема? Сумма (и среднее) большого числа независимых случайных величин стремится к нормальному распределению — даже если исходные величины распределены как угодно.

  3. Что означает уровень значимости 0.05? Вероятность ошибки I рода не превышает 5%. То есть мы допускаем 5% шанс отклонить верную нулевую гипотезу.

  4. Когда медиана лучше среднего? Когда в данных есть выбросы. Средняя зарплата в компании = 500K, если CEO получает 50M. Медиана покажет типичное значение.

Теория вероятностей

  1. Вероятность выпадения «орла» при честной монете? 0.5 — классика, но от неё отталкиваются более сложные задачи.

  2. События A и B независимы. Как найти P(A∩B)? P(A) · P(B). Независимость = знание одного события не меняет вероятность другого.

  3. Формула Байеса — для чего она? P(A|B) = P(B|A) · P(A) / P(B). Позволяет обновить вероятность гипотезы при получении новых данных. Пример: вероятность болезни при положительном тесте.

  4. 3 монеты: 2 обычные и 1 с двумя орлами. Выбрали наугад, бросили — выпал орёл. Какова вероятность, что монета «двойная»? 2/3. Классическая задача на Байеса.

В Карьернике вопросы по статистике и вероятностям разделены на два отдельных раздела — можно тренировать каждый блок независимо.

Другие темы

Как готовиться

  1. Начните с интуиции — прежде чем запоминать формулы, убедитесь, что понимаете: зачем нужна дисперсия? Что даёт ЦПТ? Почему p-value ≠ вероятность гипотезы?

  2. Разберите ЦПТ и закон больших чисел — это два столпа, на которых стоит вся прикладная статистика. Если понимаете их — остальное ложится легко.

  3. Выучите формулу Байеса через примеры — не абстрактно, а на задачах: тесты на болезнь, спам-фильтры, монеты с двумя орлами.

  4. Свяжите с A/B-тестами — проверка гипотез, p-value, мощность теста — это прямое применение статистики. Если готовитесь к обоим блокам параллельно — они усиливают друг друга.

FAQ

Насколько глубоко нужно знать статистику для аналитика?

Для junior — базовый уровень: среднее vs медиана, что такое p-value, ЦПТ. Для middle — проверка гипотез, выбор теста, интерпретация CI. Для senior — бутстрап, байесовский подход, causal inference.

Нужно ли помнить формулы наизусть?

Не все. Но ключевые (дисперсия, формула Байеса, p-value) нужно уметь записать и объяснить. Формулу t-статистики гуглить ок, а что такое уровень значимости — нет.

Как отличаются разделы «Статистика» и «Теория вероятностей» в Карьернике?

Теория вероятностей — классические задачи на комбинаторику, условную вероятность, Байеса. Статистика — описательная статистика, распределения, проверка гипотез. Темы связаны, но тренировать их можно независимо.