22 апреля 2026 г.·4 мин чтения

A/B-тест vs holdout test

Проверь себя · 1/3разбор после ответа

Перед анализом результата вы проверяете страховочные метрики, которые не должны меняться между группами. Какая метрика чаще всего работает как страховочная в онлайн A/B тесте?

Короткий ответ

A/B-тест: сравниваем две версии product/feature (control vs test)
Holdout test: специально держим маленькую группу БЕЗ новой фичи, чтобы измерить её реальный эффект в долгую

A/B — когда тестируем изменение. Holdout — когда уже раскатили и хотим измерить incremental impact.

A/B-тест — классика

Setup

50% пользователей: control (старая версия)
50% пользователей: test (новая версия)
Запускаем на 2-4 недели
Сравниваем метрики

Use case

Изменение UI
Новая feature
Ценовая политика
Рекомендательный алгоритм

Проверяет

«Которая версия лучше?»

Holdout test

Setup

95% пользователей: получают фичу
5% (holdout): НЕ получают
Долгое время (месяцы-годы)
Сравниваем поведение

Use case

Измерить incremental impact раскатанной фичи
Оценить влияние целого продукта / кампании
Baseline для сравнения

Проверяет

«Насколько продукт влияет на пользователей в долгую?»

Главные отличия

	A/B-тест	Holdout test
Размер групп	~50/50	95/5 или 99/1
Длительность	2-4 недели	месяцы-годы
Цель	выбрать вариант	измерить incremental
Когда запускают	перед решением	после раскатки
Этика	приемлемо	иногда спорно

Пример

A/B-тест: новый чекаут

Запустили A/B: control vs new checkout. 2 недели. New выиграл +3% CR. Раскатали на 100%.

Holdout для checkout

После раскатки оставляем 1% на старом checkout (holdout). Через 6 месяцев сравниваем. Реально +5% CR на long-run (novel effect прошёл, real lift выше).

Holdout показал — без него мы бы не знали long-term impact.

Long-term holdout

Часто используют Google, Facebook, Netflix:

1% пользователей постоянно БЕЗ ads
1% БЕЗ новых features
1% БЕЗ recommendations

Измеряют кумулятивный impact всего продукта.

Риски:

Holdout устаревают (long-time без фич → другое поведение, может mislead)
Ethical: удерживать value от части пользователей

Incremental measurement

Основная ценность holdout — incrementality:

Incremental impact = metric(treated) - metric(holdout)

Не то же, что «пользователи с feature vs без». Selection bias в observational → нужен random holdout.

Подготовься к собесу по A/B и статистике

300+ вопросов с разбором: дизайн, размер выборки, p-value, ловушки

Тренировать A/B в Telegram

В A/B-тесте

A/B — встроенная incrementality (для короткого периода).

Alternatives к holdout

Geo experiments

Запустить в одних регионах, не в других. Сравнить.

MMM (Marketing Mix Modeling)

Эконометрика на aggregated данных. Без holdout.

Causal inference методы

Synthetic control, difference-in-differences.

Practical challenges

Holdout size

1% на миллионах → 10К юзеров. Достаточно для большинства метрик.

Для мелких компаний (100K users) 1% = 1000 → маленькая. Лучше geo experiment.

Holdout duration

Short (month): для short-term impact
Long (6-12 months): для LTV, habit formation
Permanent: постоянно, как baseline

Contamination

Если holdout пользователи видят новую фичу (друг рассказал, случайно попали) — эффект размывается.

Attrition

Holdout могут churn-иться больше без фичи. Это валидный эффект, но усложняет анализ.

На собесе

«Разница A/B и holdout?» A/B — выбрать вариант. Holdout — измерить impact уже раскатанной фичи.

«Какой размер holdout?» 1-5% обычно. Зависит от метрики и нужной мощности.

«Когда использовать holdout?» Для long-term impact measurement. Для оценки incremental value.

«Проблема holdout?» Ethical (удерживать value), contamination, attrition.

Частые ошибки

1. Думать, что A/B = holdout

A/B короткий, чтобы принять решение. Holdout долгий, для measurement.

2. Holdout без randomization

Если выбирают вручную — selection bias.

3. Слишком короткий holdout

Для retention / LTV нужны месяцы-годы.

4. Не измерять contamination

Убедитесь, что holdout реально без фичи.

5. Холдовать mission-critical фичи

Например, retention feature. Ethical issues + users leave.

Связанные темы

FAQ

Holdout всегда для incrementality?

Да, главная цель — измерить, что фича даёт extra.

Можно ли сразу и A/B и holdout?

Да. A/B перед раскаткой, holdout после.

Когда прекращать holdout?

Когда получили достаточную confidence в measurement. Или permanent для ongoing baseline.

Holdout только в tech-компаниях?

Нет. Marketing, retail используют через geo experiments.

A/B-тест vs holdout test

Короткий ответ

A/B-тест — классика

Setup

Use case

Проверяет

Holdout test

Setup

Use case

Проверяет

Главные отличия

Пример

A/B-тест: новый чекаут

Holdout для checkout

Long-term holdout

Incremental measurement

В A/B-тесте

Alternatives к holdout

Geo experiments

MMM (Marketing Mix Modeling)

Causal inference методы

Practical challenges

Holdout size

Holdout duration

Contamination

Attrition

На собесе

Частые ошибки

1. Думать, что A/B = holdout

2. Holdout без randomization

3. Слишком короткий holdout

4. Не измерять contamination

5. Холдовать mission-critical фичи

Связанные темы

FAQ

Holdout всегда для incrementality?

Можно ли сразу и A/B и holdout?

Когда прекращать holdout?

Holdout только в tech-компаниях?

Ещё по теме