A/B-тест vs holdout test
Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.
Короткий ответ
- A/B-тест: сравниваем две версии product/feature (control vs test)
- Holdout test: специально держим маленькую группу БЕЗ новой фичи, чтобы измерить её реальный эффект в долгую
A/B — когда тестируем изменение. Holdout — когда уже раскатили и хотим измерить incremental impact.
A/B-тест — классика
Setup
- 50% пользователей: control (старая версия)
- 50% пользователей: test (новая версия)
- Запускаем на 2-4 недели
- Сравниваем метрики
Use case
- Изменение UI
- Новая feature
- Ценовая политика
- Рекомендательный алгоритм
Проверяет
«Которая версия лучше?»
Holdout test
Setup
- 95% пользователей: получают фичу
- 5% (holdout): НЕ получают
- Долгое время (месяцы-годы)
- Сравниваем поведение
Use case
- Измерить incremental impact раскатанной фичи
- Оценить влияние целого продукта / кампании
- Baseline для сравнения
Проверяет
«Насколько продукт влияет на пользователей в долгую?»
Главные отличия
| A/B-тест | Holdout test | |
|---|---|---|
| Размер групп | ~50/50 | 95/5 или 99/1 |
| Длительность | 2-4 недели | месяцы-годы |
| Цель | выбрать вариант | измерить incremental |
| Когда запускают | перед решением | после раскатки |
| Этика | приемлемо | иногда спорно |
Пример
A/B-тест: новый чекаут
Запустили A/B: control vs new checkout. 2 недели. New выиграл +3% CR. Раскатали на 100%.
Holdout для checkout
После раскатки оставляем 1% на старом checkout (holdout). Через 6 месяцев сравниваем. Реально +5% CR на long-run (novel effect прошёл, real lift выше).
Holdout показал — без него мы бы не знали long-term impact.
Long-term holdout
Часто используют Google, Facebook, Netflix:
- 1% пользователей постоянно БЕЗ ads
- 1% БЕЗ новых features
- 1% БЕЗ recommendations
Измеряют кумулятивный impact всего продукта.
Риски:
- Holdout устаревают (long-time без фич → другое поведение, может mislead)
- Ethical: удерживать value от части пользователей
Incremental measurement
Основная ценность holdout — incrementality:
Incremental impact = metric(treated) - metric(holdout)Не то же, что «пользователи с feature vs без». Selection bias в observational → нужен random holdout.
В A/B-тесте
A/B — встроенная incrementality (для короткого периода).
Alternatives к holdout
Geo experiments
Запустить в одних регионах, не в других. Сравнить.
MMM (Marketing Mix Modeling)
Эконометрика на aggregated данных. Без holdout.
Causal inference методы
Synthetic control, difference-in-differences.
Practical challenges
Holdout size
1% на миллионах → 10К юзеров. Достаточно для большинства метрик.
Для мелких компаний (100K users) 1% = 1000 → маленькая. Лучше geo experiment.
Holdout duration
- Short (month): для short-term impact
- Long (6-12 months): для LTV, habit formation
- Permanent: постоянно, как baseline
Contamination
Если holdout пользователи видят новую фичу (друг рассказал, случайно попали) — эффект размывается.
Attrition
Holdout могут churn-иться больше без фичи. Это валидный эффект, но усложняет анализ.
На собесе
«Разница A/B и holdout?» A/B — выбрать вариант. Holdout — измерить impact уже раскатанной фичи.
«Какой размер holdout?» 1-5% обычно. Зависит от метрики и нужной мощности.
«Когда использовать holdout?» Для long-term impact measurement. Для оценки incremental value.
«Проблема holdout?» Ethical (удерживать value), contamination, attrition.
Частые ошибки
1. Думать, что A/B = holdout
A/B короткий, чтобы принять решение. Holdout долгий, для measurement.
2. Holdout без randomization
Если выбирают вручную — selection bias.
3. Слишком короткий holdout
Для retention / LTV нужны месяцы-годы.
4. Не измерять contamination
Убедитесь, что holdout реально без фичи.
5. Холдовать mission-critical фичи
Например, retention feature. Ethical issues + users leave.
Связанные темы
- A/B-тест простыми словами
- A/B-тестирование гайд
- A/A-тест зачем нужен
- CUPED снижение дисперсии
- Многорукие бандиты vs A/B
FAQ
Holdout всегда для incrementality?
Да, главная цель — измерить, что фича даёт extra.
Можно ли сразу и A/B и holdout?
Да. A/B перед раскаткой, holdout после.
Когда прекращать holdout?
Когда получили достаточную confidence в measurement. Или permanent для ongoing baseline.
Holdout только в tech-компаниях?
Нет. Marketing, retail используют через geo experiments.
Тренируйте A/B-тестирование — откройте тренажёр с 1500+ вопросами для собесов.