Доверительный интервал простыми словами

Что такое доверительный интервал

Доверительный интервал (confidence interval, CI) — это диапазон значений, построенный по данным выборки, который с заданной вероятностью накрывает истинный параметр генеральной совокупности.

Суть проста: вы измерили среднее время на сайте по 200 пользователям и получили 4,2 минуты. Но 4,2 — это оценка на основе выборки. Если бы вы взяли другие 200 человек, число было бы другим. Доверительный интервал показывает, в каком диапазоне, скорее всего, находится настоящее среднее для всей аудитории.

Например: 95% CI = [3,8; 4,6] минуты. Это значит, что процедура построения интервала такова, что при многократном повторении эксперимента 95% построенных интервалов будут содержать истинное среднее.

Правильная интерпретация

Доверительный интервал — это свойство метода, а не конкретного интервала.

Частая ошибка: говорить "с вероятностью 95% истинное среднее лежит в интервале [3,8; 4,6]". Это неправильная формулировка. Истинное среднее — фиксированное число, оно либо попало в конкретный построенный интервал, либо нет.

Корректная интерпретация: если повторить процедуру выборки и построения интервала 1000 раз, примерно 950 из 1000 интервалов накроют истинное значение параметра.

Разница тонкая, но на собеседовании аналитика именно за неё цепляются. Запомните: "уровень доверия 95%" описывает надёжность метода, а не конкретного результата.

Формула для среднего

Для построения CI среднего при известном (или большом n, когда используем выборочное) стандартном отклонении:

CI = x̄ ± z * (σ / √n)

Где:

  • — выборочное среднее
  • z — квантиль стандартного нормального распределения (z-критерий)
  • σ — стандартное отклонение (при большом n берём выборочное s)
  • n — размер выборки

Значения z для типичных уровней доверия:

  • 90% — z = 1,645
  • 95% — z = 1,960
  • 99% — z = 2,576
  • 99,9% — z = 3,291

При малых выборках (n < 30) вместо z используют квантиль распределения Стьюдента (t-распределение) с n - 1 степенями свободы. Формула та же, но z заменяется на t:

CI = x̄ ± t(α/2, n-1) * (s / √n)

Числовой пример: CI для среднего

Задача. Вы замерили время выполнения SQL-задачи у 100 кандидатов. Среднее время — 45 минут, стандартное отклонение — 10 минут. Постройте 95% доверительный интервал для среднего.

Решение по шагам:

  1. x̄ = 45, s = 10, n = 100
  2. Стандартная ошибка: SE = s / √n = 10 / √100 = 10 / 10 = 1,0
  3. z для 95% = 1,96
  4. Полуширина: E = 1,96 * 1,0 = 1,96
  5. CI = [45 - 1,96; 45 + 1,96] = [43,04; 46,96]

Интерпретация: при многократном повторении эксперимента 95% таких интервалов будут содержать истинное среднее время выполнения задачи.

Формула для доли (пропорции)

Формула Вальда

Простейший вариант, который чаще всего дают на собеседованиях:

CI = p̂ ± z * √(p̂(1 - p̂) / n)

Где p̂ — выборочная доля (например, конверсия).

Пример. Из 500 посетителей лендинга 60 совершили покупку. Конверсия p̂ = 60/500 = 0,12 (12%).

  1. SE = √(0,12 * 0,88 / 500) = √(0,0002112) = 0,01453
  2. E = 1,96 * 0,01453 = 0,02848
  3. CI = [0,12 - 0,02848; 0,12 + 0,02848] = [0,0915; 0,1485], или 9,2%–14,9%

Формула Вильсона

Формула Вальда плохо работает при малых n или при p̂ близком к 0 или 1 — интервал может выйти за пределы [0, 1]. Формула Вильсона (Wilson score interval) лишена этого недостатка:

CI = (p̂ + z²/2n ± z * √(p̂(1-p̂)/n + z²/4n²)) / (1 + z²/n)

На практике в Python и R используют именно Вильсона. На собеседовании достаточно знать формулу Вальда, но упомянуть существование Вильсона — плюс.

Что влияет на ширину доверительного интервала

Ширина CI определяется тремя факторами:

1. Размер выборки (n). Чем больше n, тем уже интервал. Зависимость через √n: чтобы сузить CI вдвое, нужно увеличить выборку вчетверо.

2. Уровень доверия. Чем выше уровень доверия, тем шире интервал. 99% CI всегда шире 95% CI для тех же данных. Логика: чтобы быть "увереннее", нужно захватить больший диапазон.

Уровень доверия z-критерий Относительная ширина
90% 1,645 0,84x
95% 1,960 1,00x (базовый)
99% 2,576 1,31x
99,9% 3,291 1,68x

3. Дисперсия (разброс данных). Чем больше разброс значений в данных, тем шире интервал. На это вы повлиять не можете — это свойство данных.

На собеседовании спрашивают: "Чем шире доверительный интервал — это хорошо или плохо?" Ответ: широкий CI означает высокую неопределённость оценки. Это ни хорошо, ни плохо само по себе — это сигнал, что данных недостаточно для точного вывода, или разброс в данных слишком велик.

Может ли уровень доверия быть 99,9%?

Да. Уровень доверия — это параметр, который вы выбираете. Можно построить 99,9% CI и даже 99,99%. Вопрос — зачем.

Чем выше уровень доверия, тем шире интервал. При 99,9% интервал станет настолько широким, что потеряет практический смысл: "средняя конверсия от 2% до 25%" — формально надёжно, но бесполезно для решений.

В аналитике стандарт — 95%. В медицине и физике частиц используют более строгие уровни (99% и 99,7%). В продуктовой аналитике и A/B тестах 95% достаточно почти всегда.

Доверительный интервал в A/B тестах

В A/B тестах доверительный интервал применяется для оценки разницы между группами. Типичная задача: конверсия контроля — 10%, конверсия теста — 11,5%. Значимо ли это?

Строят CI для разности долей: delta = p_test - p_control. Если 95% CI для delta не содержит 0 (например, [0,3%; 2,7%]), разница статистически значима.

Связь с p-value: если 95% CI не содержит 0, то p-value < 0,05. Это два способа ответить на один вопрос, но CI информативнее — он показывает не только "есть эффект или нет", но и его величину и диапазон.

На собеседовании спрашивают: "Что лучше смотреть — p-value или доверительный интервал?" Ответ: CI предпочтительнее, потому что содержит больше информации. p-value говорит только "значимо/незначимо", а CI показывает размер эффекта и неопределённость оценки. На практике смотрят оба, но CI — более полезная метрика для принятия продуктовых решений.

Доверительный интервал vs интервал предсказания

Их часто путают. Доверительный интервал оценивает, где лежит параметр (среднее, доля). Интервал предсказания (prediction interval) оценивает, где окажется следующее конкретное наблюдение.

Интервал предсказания всегда шире, потому что учитывает и неопределённость оценки параметра, и разброс отдельных наблюдений. Если 95% CI среднего времени на сайте — [3,8; 4,6], то 95% интервал предсказания для следующего пользователя может быть [1,5; 7,5].

Python: считаем доверительный интервал

CI для среднего

import numpy as np
from scipy import stats

data = np.array([45, 38, 52, 41, 47, 50, 43, 39, 48, 44,
                 46, 42, 51, 40, 49, 37, 53, 44, 46, 41])

n = len(data)
mean = np.mean(data)
se = stats.sem(data)  # стандартная ошибка среднего

# 95% CI через t-распределение (корректно для малых выборок)
ci = stats.t.interval(0.95, df=n-1, loc=mean, scale=se)
print(f"Среднее: {mean:.2f}")
print(f"95% CI: [{ci[0]:.2f}, {ci[1]:.2f}]")
# Среднее: 44.80
# 95% CI: [42.59, 47.01]

CI для доли (пропорция)

from statsmodels.stats.proportion import proportion_confint

# 60 успехов из 500 наблюдений
successes = 60
n = 500

# Метод Вальда
ci_wald = proportion_confint(successes, n, alpha=0.05, method='normal')
print(f"Wald 95% CI: [{ci_wald[0]:.4f}, {ci_wald[1]:.4f}]")
# Wald 95% CI: [0.0915, 0.1485]

# Метод Вильсона (рекомендуется)
ci_wilson = proportion_confint(successes, n, alpha=0.05, method='wilson')
print(f"Wilson 95% CI: [{ci_wilson[0]:.4f}, {ci_wilson[1]:.4f}]")
# Wilson 95% CI: [0.0933, 0.1512]

CI для разности долей (A/B тест)

from statsmodels.stats.proportion import confint_proportions_2indep

# Контроль: 500 из 5000 конвертировались (10%)
# Тест: 575 из 5000 конвертировались (11,5%)
ci_diff = confint_proportions_2indep(
    575, 5000, 500, 5000, method='wald'
)
print(f"95% CI для разности: [{ci_diff[0]:.4f}, {ci_diff[1]:.4f}]")
# 95% CI для разности: [0.0028, 0.0272]
# Не содержит 0 → разница значима

Типичные ошибки

1. Неправильная интерпретация. "Вероятность 95%, что истинное среднее в интервале" — неверно. Правильно: "метод даёт интервалы, которые в 95% случаев содержат истинное значение".

2. Путаница CI и интервала предсказания. CI — для параметра (среднего по генеральной совокупности). Prediction interval — для конкретного наблюдения. На собеседованиях этот вопрос задают специально, чтобы проверить глубину понимания.

3. CI при малых выборках с z вместо t. При n < 30 необходимо использовать t-распределение. z-квантиль даёт заниженную ширину, и реальное покрытие будет хуже заявленного 95%.

4. Формула Вальда для экстремальных долей. При p̂ близком к 0 или 1 формула Вальда даёт интервал, выходящий за [0, 1]. Используйте Вильсона или Клоппера--Пирсона.

5. Игнорирование множественных сравнений. Если вы строите CI для 20 метрик одновременно, ожидаете, что 1 из 20 "выстрелит" случайно. В A/B тестах с несколькими метриками нужна поправка (Бонферрони, FDR).

Вопросы с собеседований

1. Что такое 95% доверительный интервал?

Это интервал, построенный по выборке так, что при многократном повторении эксперимента 95% таких интервалов накроют истинное значение параметра. Это характеристика метода, а не конкретного интервала.

2. Как сузить доверительный интервал, не меняя уровень доверия?

Увеличить размер выборки. CI пропорционален 1/√n, поэтому для двукратного сужения нужно увеличить n в 4 раза. Также можно уменьшить дисперсию — например, за счёт стратификации или более однородной выборки.

3. В A/B тесте 95% CI для разности конверсий: [-0,5%; +2,1%]. Что скажете?

Интервал содержит 0 — разница статистически незначима на уровне 5%. Нельзя утверждать, что тестовый вариант лучше. Но верхняя граница +2,1% говорит о том, что потенциально эффект может быть значительным. Возможные действия: продолжить тест с большей выборкой или принять решение по бизнес-логике.

4. Почему в A/B тестах используют 95%, а не 99%?

95% — компромисс между ошибкой первого рода (ложноположительный результат, 5%) и мощностью теста. При 99% потребуется значительно большая выборка для обнаружения того же эффекта, что увеличивает длительность теста. В продуктовой аналитике цена ошибки обычно не так высока, как в медицине, поэтому 95% — стандарт индустрии.

5. Конверсия 5% при выборке 20 человек. Можно ли построить CI?

Формально можно, но формула Вальда даст бессмысленный результат (нижняя граница уйдёт ниже 0). При малых n и экстремальных p̂ используйте точный метод Клоппера--Пирсона или формулу Вильсона. В Python: proportion_confint(1, 20, method='wilson').

6. Чем шире доверительный интервал, тем что?

Тем больше неопределённость оценки. Широкий CI означает, что данных недостаточно для точного вывода, или разброс значений в данных слишком велик. Ширина зависит от трёх вещей: размера выборки, уровня доверия и дисперсии.

Шпаргалка

Что Формула
CI для среднего x̄ ± z * s / √n
CI для доли (Вальд) p̂ ± z * √(p̂(1-p̂)/n)
SE среднего s / √n
SE доли √(p̂(1-p̂)/n)
z для 95% 1,960
z для 99% 2,576
Сузить CI в 2 раза Увеличить n в 4 раза

Больше вопросов по статистике и A/B тестам — в соответствующих разделах.

Читайте также

FAQ

Что такое доверительный интервал простыми словами?

Доверительный интервал — это диапазон значений, который с заданной вероятностью (обычно 95%) накрывает истинный параметр генеральной совокупности. Если повторить эксперимент много раз, 95% построенных интервалов будут содержать настоящее значение.

Как сузить доверительный интервал?

Главный способ — увеличить размер выборки. Ширина доверительного интервала пропорциональна 1/sqrt(n), поэтому для двукратного сужения нужно увеличить выборку в четыре раза. Также можно снизить дисперсию за счёт стратификации или более однородной выборки.

Чем доверительный интервал отличается от интервала предсказания?

Доверительный интервал оценивает, где лежит параметр (среднее, доля), а интервал предсказания — где окажется следующее конкретное наблюдение. Интервал предсказания всегда шире, потому что учитывает и неопределённость оценки параметра, и разброс отдельных значений.

Почему в A/B тестах доверительный интервал лучше p-value?

Доверительный интервал показывает не только наличие эффекта, но и его величину и диапазон неопределённости. P-value даёт лишь бинарный ответ «значимо или нет», а CI позволяет оценить, насколько большим может быть эффект, что полезнее для принятия продуктовых решений.

Потренируйтесь решать задачи по статистике в Карьернике — тренажёре для подготовки к собеседованиям аналитиков.