Основы A/B-тестирования: вопросы для собеседования (часть 8)

Основы A/B-тестирования — обязательный блок для любого аналитика в продуктовой компании. Что такое нулевая гипотеза, как определить размер выборки, когда можно останавливать тест — базовые вопросы, которые задают в первую очередь. Без понимания основ невозможно корректно интерпретировать результаты экспериментов.

Дизайн эксперимента и рандомизацияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED

Вопросы 3640 из 40

36Вы провели `A/B test` и не смогли отвергнуть `H0`. Какая интерпретация наиболее корректна?
AЭто доказательство, что эффекта нет и варианты эквивалентны
BЭто означает, что `treatment` точно хуже `control`
CЭто означает, что `H1` ложна во всех возможных условиях
DЭто означает, что данных могло не хватить для обнаружения эффекта, и он всё ещё возможен
Ответ: Неотвержение `H0` не доказывает отсутствие эффекта, а лишь говорит, что данных недостаточно, чтобы показать отличие.

Результат «не отвергли `H0`» означает, что наблюдаемые данные совместимы с гипотезой отсутствия эффекта. Это может случиться, если реальный `effect size` маленький или выборка недостаточна. Поэтому важно заранее определять ожидаемый эффект и интерпретировать результат вместе с практической значимостью.

37Вы тестируете новый текст рассылки и измеряете конверсию в покупку за неделю. Что обычно лучше выбрать как единицу `randomization`, чтобы один и тот же пользователь не попадал в разные варианты?
AРандомизировать по просмотру страницы, потому что так больше данных
BРандомизировать по клику, чтобы видеть только заинтересованных
CРандомизировать по пользователю (или аккаунту), чтобы каждый пользователь видел только один вариант
DНе рандомизировать вообще, достаточно сравнить с прошлой неделей
Ответ: Выбор единицы `randomization` должен предотвращать смешивание вариантов у одного и того же пользователя.

Если один пользователь увидит и `control`, и `treatment`, эффект может размыться или стать неинтерпретируемым. Для недельной метрики покупки обычно важно закрепить вариант за пользователем или аккаунтом. Так вы снижаете контаминацию и лучше соблюдаете идею сравнения двух альтернативных опытов.

38Что в контексте `A/B test` означает `counterfactual`?
AМетрика после запуска функции на всех пользователей
BЛюбая корреляция между изменением и метрикой
CСреднее значение метрики в обеих группах вместе
DРезультат для тех же пользователей в мире, где они получили бы другой вариант (например, `control` вместо `treatment`)
Ответ: `counterfactual` — это исход, который невозможно наблюдать напрямую, но который `A/B test` помогает приблизить через сравнение групп.

Для конкретного пользователя нельзя одновременно показать и `control`, и `treatment` в одном и том же моменте, поэтому прямой `counterfactual` недоступен. Эксперимент создаёт две сопоставимые группы, чтобы средний исход одной группы служил приближением того, что было бы с другой группой без изменения. Это основа `causal inference` в продуктовых экспериментах.

39A/B-тест показывает: общая конверсия контроля 5.0%, теста 4.5%. Но при разбивке по устройствам: мобильные — контроль 3.0%, тест 3.5%; десктоп — контроль 7.0%, тест 7.5%. Тест лучше в каждом сегменте, но хуже в сумме. Что произошло?
AЭто парадокс Симпсона: разное соотношение мобильных и десктопных пользователей в группах меняет общий результат
BТест содержит баг в логировании: события с мобильных устройств не записываются в тестовой группе
CРезультат по сегментам статистически незначим из-за маленьких подвыборок внутри каждого сегмента
DРандомизация нарушена: тестовая группа получила непропорционально много мобильных пользователей
Ответ: Парадокс Симпсона: тренд по сегментам может развернуться в агрегированных данных из-за разного веса сегментов.

Парадокс Симпсона возникает, когда в тестовой группе непропорционально больше пользователей из сегмента с низкой базовой конверсией (мобильные). Даже при улучшении в каждом сегменте взвешенная сумма оказывается ниже. Решение — анализировать с поправкой на состав: стратификация при рандомизации или пост-стратификация при анализе. SRM-тест также помог бы обнаружить перекос.

40Сервис такси тестирует новый алгоритм ценообразования. Если часть водителей видит новые цены, а часть — старые, пассажиры будут переключаться между ними, а водители — менять районы работы. Какой дизайн эксперимента решит эту проблему?
AРандомизировать каждого водителя индивидуально и анализировать на уровне поездок за последний месяц
BРандомизировать по времени суток: утренние поездки — тест, вечерние — контроль
CРандомизировать по типу автомобиля: эконом — тест, комфорт — контроль, для чистоты сравнения
DРандомизировать по городам или районам, чтобы водители и пассажиры внутри кластера были в одной группе
Ответ: Кластерная рандомизация по географии предотвращает перетекание пользователей между тестовой и контрольной группами.

В двустороннем маркетплейсе (такси, доставка) индивидуальная рандомизация нарушает принцип SUTVA — стабильности эффекта. Водители и пассажиры взаимодействуют, создавая перетекание между группами. Кластерная рандомизация по географии (город, район) гарантирует, что все участники рынка в одном кластере видят одинаковые условия. Минус — нужно больше кластеров для статистической мощности.

12345678

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED