Основы A/B-тестирования: вопросы для собеседования (часть 6)
Основы A/B-тестирования — обязательный блок для любого аналитика в продуктовой компании. Что такое нулевая гипотеза, как определить размер выборки, когда можно останавливать тест — базовые вопросы, которые задают в первую очередь. Без понимания основ невозможно корректно интерпретировать результаты экспериментов.
Вопросы 26–30 из 40
26Команда раскатила успешный A/B-тест на всех пользователей. Через полгода продакт хочет проверить, сохранился ли долгосрочный эффект. Какой подход позволит это измерить?
AОткатить изменение для всех пользователей и перезапустить A/B-тест через полгода
BСравнить метрики текущей версии с историческими данными до запуска теста
CПровести опрос пользователей через полгода, чтобы узнать их субъективное мнение
DОставить небольшую группу пользователей на старой версии и сравнить её с остальными через полгода
Ответ: Холдаут-группа — небольшая доля пользователей, оставленная на старой версии для измерения долгосрочного эффекта.
После раскатки сравнить «до и после» некорректно: изменились сезон, аудитория, другие фичи. Холдаут-группа (обычно 1-5% трафика) остаётся на старой версии на месяцы. Сравнивая её метрики с основной аудиторией, можно измерить кумулятивный долгосрочный эффект. Это единственный надёжный способ, потому что группы существуют в одних и тех же внешних условиях.
27Команда сначала выкатывает новую версию корзины на 2% трафика (канареечный релиз), а через сутки запускает полноценный A/B-тест на 50/50. Зачем нужны оба этапа?
AКанареечный релиз проверяет стабильность и отсутствие критических багов, а A/B-тест измеряет влияние на метрики
BКанареечный релиз и A/B-тест — одно и то же, просто разные названия для одного процесса
CКанареечный релиз точнее измеряет эффект на конверсию, потому что использует меньшую выборку
DA/B-тест проверяет технические ошибки, а канареечный релиз измеряет бизнес-метрики
Ответ: Канареечный релиз ловит технические проблемы на малом трафике, а A/B-тест — измеряет бизнес-эффект на статистически значимой выборке.
Канареечный (phased) релиз — это постепенная раскатка на 1-5% трафика для выявления крашей, ошибок, деградации производительности. Даже серьёзный баг затронет малую долю пользователей. A/B-тест требует больших выборок для статистической мощности и не годится для раннего обнаружения поломок. Двухэтапный процесс сочетает безопасность и точность измерения.
28Вы получили статистически значимую разницу, но `lift` очень маленький. Что лучше сделать перед решением о запуске?
AОценить `effect size` в бизнес-единицах (деньги, пользователи) и понять, окупается ли изменение
BЗапускать всегда, если эффект статистически заметен, независимо от размера
CИгнорировать размер эффекта, потому что важна только `H0`
DОтменить тест, потому что маленький `lift` означает ошибку в данных
Ответ: Решение о запуске должно учитывать и статистику, и практический `effect size`.
Даже маленький `lift` может быть важен для крупного продукта, но может быть бессмысленен при высоких издержках. Поэтому полезно перевести эффект в понятные бизнес-показатели и сравнить с затратами и рисками. `A/B test` отвечает на вопрос о причинности, но решение о внедрении зависит от ценности эффекта.
29Аналитик посчитал эффект нового чекаута двумя способами: по intention-to-treat вышло +2% к конверсии, а по per-protocol (только среди увидевших изменение) — +7%. Менеджер хочет использовать per-protocol как основной результат. В чём проблема?
APer-protocol точнее, потому что исключает шум от пользователей, которые не видели изменение
BPer-protocol показывает эффект на весь трафик, а ITT — только на активных пользователей
CОба подхода дадут одинаковый результат, если рандомизация была выполнена корректно
DPer-protocol оценивает эффект среди увидевших изменение, но завышает результат из-за смещения выборки
Ответ: Per-protocol анализ завышает эффект, потому что включает только активных пользователей, а не всю выборку.
Per-protocol анализ включает только пользователей, которые реально увидели изменение. Проблема в том, что эти пользователи систематически отличаются от исключённых — они более активны, чаще доходят до нужного экрана. Это вносит смещение выборки и завышает результат. ITT даёт честную оценку для бизнеса: именно столько компания получит, раскатив изменение на всех.
30Команда одновременно запускает два A/B-теста: новая главная страница и новый алгоритм рекомендаций. Оба теста влияют на одну метрику — конверсию в покупку. Как минимизировать риск неверных выводов?
AЗапускать тесты строго последовательно, потому что параллельные тесты всегда дают некорректные результаты
BИспользовать ортогональное разбиение трафика и проверять наличие эффекта взаимодействия между тестами
CДелить трафик пополам и отдавать каждому тесту свою половину без пересечений
DЗапускать оба теста на одних и тех же пользователях и считать результаты полностью независимыми
Ответ: При параллельных тестах на одну метрику нужно ортогональное разбиение и проверка взаимодействия.
Ортогональное разбиение означает, что назначение пользователя в группу одного теста не зависит от его группы в другом тесте. Это позволяет запускать тесты параллельно. Но если изменения взаимодействуют (новая страница + новые рекомендации усиливают друг друга), эффект каждого теста по отдельности будет неточным. Нужно проверять наличие взаимодействия через анализ четырёх комбинаций групп.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram