Задачи на статистику на собеседовании аналитика

Что спрашивают по статистике

Статистика — фундамент работы аналитика, поэтому на собесе её проверяют серьёзно. Обычно спрашивают три типа задач:

  • Концептуальные — объяснить p-value, ошибки I/II рода, ЦПТ простыми словами.
  • Расчётные — посчитать что-то на доске (доверительный интервал, мощность, z-статистику).
  • Прикладные — задача из жизни, которую нужно решить через статистику.

Ниже — 15 задач с реальных собеседований в продуктовые и data-heavy компании.

Блок 1: базовые концепции

Задача 1. Что такое p-value — простыми словами

Объясните p-value так, чтобы понял нетехнический PM.

Ответ. P-value — вероятность получить такой же или более экстремальный результат при условии, что никакой реальной разницы нет (H0 верна). Если p=0.03, значит: «если бы разницы не было, такой результат случался бы примерно в 3% случаев — это редко, поэтому мы склонны считать, что разница есть».

Чего НЕ надо говорить: «p-value — это вероятность того, что нулевая гипотеза верна». Это классическая ошибка.

Задача 2. Ошибки I и II рода

Что такое α и β?

  • α (ошибка I рода) — вероятность отвергнуть H0, когда она верна. Обычно 0.05.
  • β (ошибка II рода) — вероятность НЕ отвергнуть H0, когда она ложна. Обычно 0.2.
  • 1−β — мощность теста, способность детектировать реальный эффект.

Trade-off: снижаем α — растёт β, и наоборот. Баланс ищут через размер выборки.

Задача 3. ЦПТ простыми словами

Объясните Центральную Предельную Теорему.

Ответ. Если взять много независимых выборок одинакового размера из любого распределения и посчитать среднее каждой — эти средние будут распределены приближённо нормально. Чем больше размер выборки, тем лучше приближение.

Следствие: именно поэтому t-test работает, даже если исходные данные не нормальны — мы смотрим на распределение среднего, а оно нормальное по ЦПТ.

Подробнее про ЦПТ.

Тренироваться на таких вопросах можно в Telegram-боте Карьерник — там 1500+ задач с реальных собесов с разборами.

Блок 2: расчётные задачи

Задача 4. Доверительный интервал для среднего

В выборке 100 пользователей средний чек 1500 руб., sd=500. Постройте 95% доверительный интервал.

Решение. Стандартная ошибка:

$$SE = \frac{sd}{\sqrt{n}} = \frac{500}{\sqrt{100}} = 50$$

95% CI (грубо: ±1.96 * SE):

$$CI = [1500 - 1.96 \cdot 50,\ 1500 + 1.96 \cdot 50] = [1402, 1598]$$

Ответ: с 95% доверием среднее в генеральной совокупности лежит в [1402, 1598].

Задача 5. Доверительный интервал для пропорции

800 из 10000 пользователей нажали на кнопку (конверсия 8%). CI для конверсии?

$$p = 0.08,\ SE = \sqrt{\frac{p(1-p)}{n}} = \sqrt{\frac{0.08 \cdot 0.92}{10000}} = 0.00271$$

95% CI: [0.08 − 1.96·0.00271; 0.08 + 1.96·0.00271] ≈ [7.47%; 8.53%].

Задача 6. Размер выборки для A/B

Базовая конверсия 5%, хотим детектировать +0.5 п.п. α=0.05, мощность 80%. Размер выборки на группу?

По формуле для пропорций:

$$n \approx \frac{(z_{\alpha/2} + z_\beta)^2 \cdot (p_1(1-p_1) + p_2(1-p_2))}{(p_1 - p_2)^2}$$

Подставляем z(0.025)=1.96, z(0.2)=0.84, p1=0.05, p2=0.055:

$$n \approx \frac{(2.8)^2 \cdot (0.0475 + 0.052)}{0.000025} \approx 31,200$$

На каждую группу ~31к пользователей. Подробнее.

Задача 7. Z-статистика для двух пропорций

Контроль: 100 конверсий из 2000. Тест: 130 из 2000. p-value?

$$p_1 = 0.05,\ p_2 = 0.065,\ \bar{p} = 0.0575$$

$$SE = \sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_1} + \frac{1}{n_2})} = \sqrt{0.0575 \cdot 0.9425 \cdot 0.001} = 0.00736$$

$$z = \frac{0.015}{0.00736} \approx 2.04$$

Двусторонний p-value ≈ 0.041 — значимо.

Блок 3: распределения и проверка гипотез

Задача 8. Когда использовать t-test vs z-test

Чем отличаются?

  • z-test — когда известна дисперсия генеральной совокупности (почти никогда в реальной жизни) или выборка очень большая (n>30-100).
  • t-test — когда дисперсия неизвестна, оценивается по выборке. Используется почти всегда.

В продуктовой аналитике обычно используют Welch's t-test (не требует равенства дисперсий).

Подробнее — t-test vs z-test.

Задача 9. Выбор теста для сравнения

У нас две группы пользователей (A и B), хотим сравнить среднее время на сайте. Какой тест?

Пошагово:

  1. Нормальность? Если выборки большие (n>30) — пропускаем, ЦПТ сработает.
  2. Независимость? Если группы независимы — двухвыборочный t-test. Если связаны (один и тот же пользователь до/после) — парный t-test.
  3. Равенство дисперсий? Обычно — нет, используем Welch's t-test.

Правильный ответ: двухвыборочный Welch's t-test. Если распределение сильно скошено и выборки маленькие — Mann-Whitney U (непараметрический).

Подробнее — Mann-Whitney test.

Задача 10. Нормальное распределение: 68-95-99.7

Что такое правило 68-95-99.7?

В нормальном распределении:

  • 68% значений лежат в пределах μ ± 1σ
  • 95% — в пределах μ ± 2σ (точнее 1.96)
  • 99.7% — в пределах μ ± 3σ

Применение: если средний чек 1000, σ=200 — 95% чеков лежат в [600; 1400]. Чек 1800 — это 4σ от среднего, встречается в 0.01% случаев. Возможно, выброс или ошибка в данных.

Задача 11. Биномиальное распределение

Мы показываем рекламу, CTR 2%. В выборке 1000 показов — какое матожидание кликов и стандартное отклонение?

Это биномиальное распределение:

$$E(X) = np = 1000 \cdot 0.02 = 20$$

$$\sigma = \sqrt{np(1-p)} = \sqrt{1000 \cdot 0.02 \cdot 0.98} \approx 4.43$$

Ожидаем 20 кликов, типичное отклонение ±4.43. Если получили 10 кликов — это 2+ стандартных отклонений, возможно, что-то сломалось.

Блок 4: прикладные кейсы

Задача 12. Выбросы в данных

У 99% клиентов средний чек 1500, у 1% — 50 000. Что делать?

Варианты действий:

  • Оставить как есть — если цель учесть всех клиентов.
  • Отфильтровать выбросы — по правилу 1.5·IQR или по перцентилю (например, обрезать выше P99).
  • Использовать медиану и P95 вместо среднего — они устойчивы к выбросам.
  • Логарифмировать — если распределение экспоненциальное или лог-нормальное, log(x) делает его ближе к нормальному.

На собесе: назвать 2-3 варианта и выбрать в зависимости от цели. Подробнее — выбросы в данных.

Задача 13. Медиана vs среднее

Почему в LTV-отчётах обычно используют медиану, а не среднее?

LTV имеет тяжёлый правый хвост: несколько китов с LTV в сотни раз выше среднего. Они тянут mean вверх, давая неверное представление о «типичном пользователе». Медиана игнорирует хвосты — это более честный показатель.

На собесе: «для метрик с тяжёлыми хвостами (LTV, время сессии, размер корзины) медиана информативнее среднего». Медиана vs среднее.

Задача 14. Корреляция vs причинность

Мы заметили, что пользователи, которые заходят в приложение 3+ раз в неделю, в 2x чаще покупают премиум. Нужно ли промоутировать частые заходы?

Это корреляция, но не причинность. Есть 4 варианта:

  1. A → B: частые заходы действительно приводят к покупкам.
  2. B → A: пользователи, которые планируют купить, заходят чаще (обратная причинность).
  3. C → A и B: общий фактор (например, мотивированность) вызывает и то, и другое.
  4. Случайность — маловероятно при большой выборке.

Чтобы доказать A→B, нужен эксперимент: заставить часть пользователей заходить чаще (через push) и посмотреть, вырастут ли покупки.

Подробнее — корреляция vs причинность.

Задача 15. Интерпретация результата A/B

В тесте лифт +3% при p=0.04. Руководитель спрашивает: «значит, в 96% случаев мы правы?»

Нет. p-value не равно «вероятности быть правым». p=0.04 означает: «если бы не было реальной разницы, такой или больший лифт случался бы в 4% случаев». Это не то же самое, что «в 96% случаев разница есть».

Правильная формулировка: «при наших данных доказательств против нулевой гипотезы достаточно, чтобы отвергнуть её при α=0.05». На бизнесовом языке: «скорее всего эффект реальный, но есть ~5% шанс, что это случайность».

Байесовский подход даёт прямой ответ на вопрос руководителя — но там нужны приоры. Подробнее — байесовский A/B-тест.


К слову, набить руку на таких кейсах удобно через тренажёр в Telegram — разбирайте по 10 вопросов в день, через 2 недели тема становится рефлексом.

Как готовиться

Статистика на собеседовании — это не про зубрёжку формул, а про интерпретацию. Если понимаете, что такое p-value, мощность, доверительный интервал и ЦПТ — 80% вопросов закрываются логикой.

Тренажёр Карьерник содержит блок статистических задач: базовые концепции, расчёты, интерпретация результатов. Каждая задача с разбором типичных ошибок.

Совет: на собесе, рассуждая о статистике, всегда делайте привязку к продукту. «Если это средний чек e-commerce, то скорее всего распределение скошено, поэтому...» — так вы показываете, что понимаете не только теорию, но и когда её применять.

Читайте также

FAQ

Какие формулы стоит знать наизусть?

Обязательно: z-статистика для двух пропорций, формула доверительного интервала через SE, размер выборки через MDE. Желательно: t-статистика, chi-square для таблиц сопряжённости, формула биномиального распределения (E и σ). Остальное — на интуицию и гуглением.

Что важнее — запомнить формулы или понимать смысл?

Смысл. Интервьюер простит забытую формулу, но не простит непонимание p-value или мощности. Если поймали на «p-value = вероятность H0» — это минус балл независимо от остальных ответов.

Нужно ли знать байесовскую статистику?

На junior-middle — нет. На senior в продуктовых компаниях (Авито, Ozon, Яндекс) — базовые концепции да: prior, posterior, bayesian A/B, credible interval vs confidence interval. Обычно это 1-2 вопроса, не ключевой блок.

Спрашивают ли про деревья решений и регрессию?

На аналитика — базово: линейная регрессия, что такое R², мультиколлинеарность. Логистическая регрессия для классификации. Деревья и бустинг спрашивают на стыке с DS, обычно это отдельный блок. Для чистого аналитика достаточно понимать интерпретацию коэффициентов регрессии.