Доверительные интервалы на собеседовании

Зачем аналитику доверительные интервалы

Точечная оценка — например, «конверсия = 5.2%» — не даёт представления о неопределённости. Доверительный интервал (CI) показывает диапазон, в котором, вероятно, находится истинное значение параметра. Это ключевой инструмент для принятия решений: если CI для разницы конверсий включает ноль, запускать фичу рано.

На собеседовании доверительные интервалы спрашивают в связке с проверкой гипотез и A/B-тестированием. Интервьюер проверяет, понимаете ли вы, что стоит за числом «95%».

Что значит «95% доверительный интервал»

Это самый коварный вопрос на собеседовании. Большинство кандидатов отвечают: «С вероятностью 95% истинное значение лежит в этом интервале». Это неправильно.

Корректная интерпретация: если повторить эксперимент множество раз и каждый раз строить 95% CI, то примерно 95% таких интервалов будут содержать истинное значение параметра. Конкретный интервал либо содержит параметр, либо нет — вероятность не применима к одному интервалу.

Как объяснять на собеседовании: «Это метод, который даёт правильный ответ в 95% случаев. Мы доверяем методу, а не конкретному интервалу». Такая формулировка показывает глубокое понимание.

Важно: Ошибка интерпретации CI — одна из самых частых причин отказа на собеседованиях по статистике. Запомните: 95% — это свойство процедуры, а не конкретного интервала. Если хотите говорить о вероятности для конкретного значения, нужен байесовский подход.

Как строится доверительный интервал

Формула для среднего: CI = среднее +/- z * (стандартное отклонение / корень из n).

Разберём каждый компонент:

Среднее (точечная оценка) — центр интервала. Это наша лучшая оценка параметра по имеющимся данным.

z-значение — множитель, зависящий от уровня доверия. Для 95% это 1.96, для 99% — 2.576, для 90% — 1.645.

Стандартная ошибка (SE) — стандартное отклонение, делённое на корень из размера выборки. SE показывает, насколько точна наша оценка среднего.

Для пропорций (конверсий): SE = корень из (p * (1-p) / n). Это важно для задач с бинарными метриками в A/B-тестах.

Ширина интервала: от чего зависит

Ширина CI определяется тремя факторами, и все три спрашивают на собеседованиях.

Размер выборки (n): чем больше выборка, тем уже интервал. Зависимость — корень из n. Чтобы сузить CI вдвое, нужно увеличить выборку в 4 раза. Это объясняет, почему A/B-тесты требуют больших выборок.

Вариабельность данных: чем больше разброс в данных (стандартное отклонение), тем шире интервал. С этим сложно бороться — данные такие, какие есть. Один приём — использовать CUPED или стратификацию для снижения дисперсии.

Уровень доверия: 99% CI шире, чем 95%, который шире 90%. Выше уверенность — шире интервал. На практике 95% — стандарт, отступать от него нужно с обоснованием.

Связь с проверкой гипотез

Доверительный интервал и p-value — два способа сказать одно и то же. Если 95% CI для разницы между группами не включает ноль, p-value будет меньше 0.05. И наоборот.

Но CI информативнее: он показывает не только «есть ли эффект», но и диапазон правдоподобных размеров эффекта. Это критически важно для бизнес-решений. «Эффект где-то между +0.1% и +3.5%» гораздо полезнее, чем просто «p < 0.05».

На собеседовании: если вас просят интерпретировать результат A/B-теста, всегда упоминайте CI, а не только p-value. Это показывает зрелость аналитического мышления.

Типичные ошибки на собеседовании

  • Путать CI и предсказательный интервал — CI описывает неопределённость параметра (среднего), предсказательный интервал — неопределённость отдельного наблюдения. Предсказательный всегда шире
  • Говорить «вероятность 95%» про конкретный интервал — это свойство метода, не интервала
  • Забывать про размер эффекта — узкий CI вокруг крошечного эффекта означает, что эффект точно есть, но он бесполезен для бизнеса
  • Не учитывать множественные сравнения — если строите 20 интервалов, один из них не накроет параметр просто по определению

Совет: На собеседовании полезно рисовать. Нарисуйте числовую ось, отметьте точечную оценку и границы CI, покажите, где находится ноль. Визуализация помогает и вам, и интервьюеру.

FAQ

В чём разница между CI и credible interval?

Доверительный интервал (CI) — это частотная конструкция: 95% — свойство процедуры. Credible interval — байесовский аналог: 95% вероятность, что параметр лежит в интервале. Credible interval ближе к интуитивной интерпретации, но требует задания априорного распределения. Подробнее — в разделе байесовский подход.

Как CI используется в A/B-тестировании?

CI строится для разницы метрик между тестовой и контрольной группами. Если интервал не включает ноль — разница статистически значима. Границы интервала показывают минимальный и максимальный правдоподобный эффект, что помогает принять бизнес-решение. Подробнее — в разделе A/B-тестирование.

Что делать, если CI слишком широкий?

Три варианта: увеличить выборку (основной), снизить вариабельность данных (CUPED, стратификация, выбор более стабильной метрики) или снизить уровень доверия (с 95% до 90%, но с обоснованием). На собеседовании покажите, что понимаете trade-off каждого варианта. Смотрите также примеры вопросов и подготовку к собеседованию.