A/B-тест vs holdout test

Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.

Короткий ответ

  • A/B-тест: сравниваем две версии product/feature (control vs test)
  • Holdout test: специально держим маленькую группу БЕЗ новой фичи, чтобы измерить её реальный эффект в долгую

A/B — когда тестируем изменение. Holdout — когда уже раскатили и хотим измерить incremental impact.

A/B-тест — классика

Setup

  • 50% пользователей: control (старая версия)
  • 50% пользователей: test (новая версия)
  • Запускаем на 2-4 недели
  • Сравниваем метрики

Use case

  • Изменение UI
  • Новая feature
  • Ценовая политика
  • Рекомендательный алгоритм

Проверяет

«Которая версия лучше?»

Holdout test

Setup

  • 95% пользователей: получают фичу
  • 5% (holdout): НЕ получают
  • Долгое время (месяцы-годы)
  • Сравниваем поведение

Use case

  • Измерить incremental impact раскатанной фичи
  • Оценить влияние целого продукта / кампании
  • Baseline для сравнения

Проверяет

«Насколько продукт влияет на пользователей в долгую?»

Главные отличия

A/B-тест Holdout test
Размер групп ~50/50 95/5 или 99/1
Длительность 2-4 недели месяцы-годы
Цель выбрать вариант измерить incremental
Когда запускают перед решением после раскатки
Этика приемлемо иногда спорно

Пример

A/B-тест: новый чекаут

Запустили A/B: control vs new checkout. 2 недели. New выиграл +3% CR. Раскатали на 100%.

Holdout для checkout

После раскатки оставляем 1% на старом checkout (holdout). Через 6 месяцев сравниваем. Реально +5% CR на long-run (novel effect прошёл, real lift выше).

Holdout показал — без него мы бы не знали long-term impact.

Long-term holdout

Часто используют Google, Facebook, Netflix:

  • 1% пользователей постоянно БЕЗ ads
  • 1% БЕЗ новых features
  • 1% БЕЗ recommendations

Измеряют кумулятивный impact всего продукта.

Риски:

  • Holdout устаревают (long-time без фич → другое поведение, может mislead)
  • Ethical: удерживать value от части пользователей

Incremental measurement

Основная ценность holdout — incrementality:

Incremental impact = metric(treated) - metric(holdout)

Не то же, что «пользователи с feature vs без». Selection bias в observational → нужен random holdout.

В A/B-тесте

A/B — встроенная incrementality (для короткого периода).

Alternatives к holdout

Geo experiments

Запустить в одних регионах, не в других. Сравнить.

MMM (Marketing Mix Modeling)

Эконометрика на aggregated данных. Без holdout.

Causal inference методы

Synthetic control, difference-in-differences.

Practical challenges

Holdout size

1% на миллионах → 10К юзеров. Достаточно для большинства метрик.

Для мелких компаний (100K users) 1% = 1000 → маленькая. Лучше geo experiment.

Holdout duration

  • Short (month): для short-term impact
  • Long (6-12 months): для LTV, habit formation
  • Permanent: постоянно, как baseline

Contamination

Если holdout пользователи видят новую фичу (друг рассказал, случайно попали) — эффект размывается.

Attrition

Holdout могут churn-иться больше без фичи. Это валидный эффект, но усложняет анализ.

На собесе

«Разница A/B и holdout?» A/B — выбрать вариант. Holdout — измерить impact уже раскатанной фичи.

«Какой размер holdout?» 1-5% обычно. Зависит от метрики и нужной мощности.

«Когда использовать holdout?» Для long-term impact measurement. Для оценки incremental value.

«Проблема holdout?» Ethical (удерживать value), contamination, attrition.

Частые ошибки

1. Думать, что A/B = holdout

A/B короткий, чтобы принять решение. Holdout долгий, для measurement.

2. Holdout без randomization

Если выбирают вручную — selection bias.

3. Слишком короткий holdout

Для retention / LTV нужны месяцы-годы.

4. Не измерять contamination

Убедитесь, что holdout реально без фичи.

5. Холдовать mission-critical фичи

Например, retention feature. Ethical issues + users leave.

Связанные темы

FAQ

Holdout всегда для incrementality?

Да, главная цель — измерить, что фича даёт extra.

Можно ли сразу и A/B и holdout?

Да. A/B перед раскаткой, holdout после.

Когда прекращать holdout?

Когда получили достаточную confidence в measurement. Или permanent для ongoing baseline.

Holdout только в tech-компаниях?

Нет. Marketing, retail используют через geo experiments.


Тренируйте A/B-тестирование — откройте тренажёр с 1500+ вопросами для собесов.