Question 1

Вы провели A/B-тест и не смогли отвергнуть `H0`. Какая интерпретация наиболее корректна?

Accepted Answer

Неотвержение `H0` не доказывает отсутствие эффекта, а лишь говорит, что данных недостаточно, чтобы показать отличие. Результат «не отвергли `H0`» означает, что наблюдаемые данные совместимы с гипотезой отсутствия эффекта. Это может случиться, если реальный размер эффекта маленький или выборка недостаточна. Поэтому важно заранее определять ожидаемый эффект и интерпретировать результат вместе с практической значимостью.

Question 2

Вы тестируете новый текст рассылки и измеряете конверсию в покупку за неделю. Что обычно лучше выбрать как единицу рандомизации, чтобы один и тот же пользователь не попадал в разные варианты?

Accepted Answer

Единица рандомизации должна предотвращать попадание одного пользователя сразу в две группы и смешивание вариантов. Если один пользователь увидит и контрольный, и тестовый вариант, эффект может размыться или стать неинтерпретируемым. Для недельной метрики покупки обычно важно закрепить вариант за пользователем или аккаунтом. Так вы снижаете контаминацию и лучше соблюдаете идею сравнения двух альтернативных опытов. Рандомизация по просмотрам или кликам не закрепляет вариант за человеком, а сравнение с прошлой неделей не контролирует сезонность и внешние факторы.

Question 3

Что в контексте `A/B` теста означает контрфактический исход?

Accepted Answer

Контрфактический исход — это результат, который нельзя наблюдать напрямую, но `A/B` тест приближает его через сравнение групп. Для конкретного пользователя нельзя одновременно показать и контроль, и тестовую версию в одном и том же моменте, поэтому прямой контрфактический исход недоступен. Эксперимент создаёт две сопоставимые группы, чтобы среднее одной служило приближением того, что произошло бы с другой без изменения. Это основа причинного вывода в продуктовых экспериментах. Корреляция на истории или среднее по всем пользователям после раскатки контрфактическим исходом не являются.

Question 4

A/B-тест показывает: общая конверсия контроля 5.0%, теста 4.5%. Но при разбивке по устройствам: мобильные — контроль 3.0%, тест 3.5%; десктоп — контроль 7.0%, тест 7.5%. Тест лучше в каждом сегменте, но хуже в сумме. Что произошло?

Accepted Answer

Парадокс Симпсона: тренд по сегментам может развернуться в агрегированных данных из-за разного веса сегментов. Парадокс Симпсона возникает, когда в тестовой группе непропорционально больше пользователей из сегмента с низкой базовой конверсией (мобильные). Даже при улучшении в каждом сегменте взвешенная сумма оказывается ниже. Решение — анализировать с поправкой на состав: стратификация при рандомизации или пост-стратификация при анализе. SRM-тест также помог бы обнаружить перекос.

Question 5

Сервис такси тестирует новый алгоритм ценообразования. Если часть водителей видит новые цены, а часть — старые, пассажиры будут переключаться между ними, а водители — менять районы работы. Какой дизайн эксперимента решит эту проблему?

Accepted Answer

Кластерная рандомизация по географии предотвращает перетекание пользователей между тестовой и контрольной группами. В двустороннем маркетплейсе (такси, доставка) индивидуальная рандомизация нарушает принцип SUTVA — стабильности эффекта. Водители и пассажиры взаимодействуют, создавая перетекание между группами. Кластерная рандомизация по географии (город, район) гарантирует, что все участники рынка в одном кластере видят одинаковые условия. Минус — нужно больше кластеров для статистической мощности.

Основы A/B-тестирования: вопросы для собеседования (часть 8)

Вопросы 36–40 из 40

Хотите тренировать интерактивно?

Другие темы: A/B-тесты