Основы A/B-тестирования: вопросы для собеседования (часть 5)
Основы A/B-тестирования — обязательный блок для любого аналитика в продуктовой компании. Что такое нулевая гипотеза, как определить размер выборки, когда можно останавливать тест — базовые вопросы, которые задают в первую очередь. Без понимания основ невозможно корректно интерпретировать результаты экспериментов.
Вопросы 21–25 из 40
21Команда переместила кнопку оформления заказа в новое место на странице. В первую неделю конверсия в тестовой группе упала на 8%, но через месяц стала на 3% выше контроля. Что лучше всего объясняет динамику метрик?
AМетрики отражают реальное ухудшение продукта, и от нового расположения нужно отказаться
BЧасть падения объясняется эффектом привыкания: пользователи привыкли к старому расположению и ищут кнопку на прежнем месте
CПадение метрик означает баг в реализации нового расположения кнопки в тестовой группе
DСтатистическая значимость низкая, потому что прошла только одна неделя тестирования
Ответ: Эффект привыкания (primacy effect) — временное падение метрик, когда пользователи привыкли к старому интерфейсу.
Эффект привыкания (primacy effect) — противоположность эффекта новизны. Пользователи привыкли к определённому расположению элементов и при изменении теряются. Метрики временно падают, но по мере привыкания к новому дизайну восстанавливаются и могут даже вырасти. Поэтому тест нужно держать достаточно долго, чтобы оба эффекта затухли.
22В эксперименте с новым баннером 30% пользователей тестовой группы не дошли до экрана с баннером и не увидели изменение. Как правильно посчитать конверсию по принципу intention-to-treat?
AСчитать конверсию только среди тех, кто кликнул по баннеру и увидел новую страницу
BИсключить из анализа пользователей, которые закрыли приложение до загрузки нового баннера
CСчитать конверсию среди всех пользователей тестовой группы, независимо от того, увидели ли они баннер
DРазделить тестовую группу на видевших и не видевших баннер, посчитать конверсию отдельно
Ответ: Принцип intention-to-treat: анализируем всех назначенных в группу, даже если они не увидели изменение.
Intention-to-treat (ITT) — анализ по назначению в группу — включает в расчёт всех участников группы, а не только тех, кто реально увидел изменение. Это предотвращает систематическую ошибку: если исключить не-увидевших, остаются более активные пользователи, и результат будет завышен. ITT даёт консервативную, но честную оценку эффекта на весь трафик.
23Команда социальной сети тестирует новый алгоритм рекомендаций. Пользователи рандомизированы индивидуально. Тестовая группа делает на 20% больше репостов, но и в контрольной группе репосты выросли на 8%. Что наиболее вероятно произошло?
AДействия пользователей тестовой группы влияют на пользователей контрольной через общую ленту рекомендаций
BВыборка слишком маленькая для обнаружения статистически значимого эффекта в социальной сети
CРандомизация прошла некорректно и в тестовую группу попали более активные пользователи
DМетрика конверсии не подходит для оценки алгоритма рекомендаций в социальной сети
Ответ: Сетевой эффект: действия одной группы влияют на другую через общий контент, лайки и репосты.
Когда пользователи взаимодействуют друг с другом (соцсети, маркетплейсы, мессенджеры), индивидуальная рандомизация нарушает предположение о независимости групп. Репосты пользователей тестовой группы попадают в ленты контрольной — метрики контроля загрязняются. Решение — рандомизация кластерами: город, регион или социальный граф.
24Команда провела AA-тест на 100 000 пользователей. Конверсия в группе A — 4.8%, в группе B — 5.0%, p-value = 0.04. Обе группы видели одну и ту же версию. Как интерпретировать результат?
AРазница в 4% пренебрежимо мала — система работает корректно и можно запускать A/B-тесты
BНужно увеличить размер выборки AA-теста, чтобы убедиться в значимости отличия на 4%
CЗначимое различие при одинаковом воздействии — это ожидаемый результат в 5% случаев при альфа 0.05
DЗначимое различие в AA-тесте сигнализирует о проблемах в системе сплитования или сборе данных
Ответ: Значимое различие в AA-тесте при большой выборке — серьёзный сигнал о проблемах в инфраструктуре эксперимента.
При маленькой выборке значимый результат в AA-тесте может быть ложноположительным (5% шанс при альфа 0.05). Но при 100 000 пользователей обнаруженная разница в 0.2 п.п. — это скорее систематическое смещение. Нужно проверить: корректность рандомизации (SRM-тест), одинаковость логирования событий в обеих группах, отсутствие ботов или технических артефактов.
25Тест изменяет дизайн экрана оплаты. Из 50 000 пользователей тестовой группы только 8 000 дошли до этого экрана. Метрика — общая конверсия в покупку. Как триггеринг поможет увеличить чувствительность теста?
AАнализировать только тех, кто дошёл до экрана оплаты, потому что остальные никак не могли увидеть изменение
BАнализировать всех пользователей обеих групп для максимального размера выборки
CАнализировать только тех, кто совершил покупку, чтобы убрать шум от неактивных пользователей
DАнализировать только новых пользователей, потому что старые привыкли к прежнему интерфейсу
Ответ: Триггеринг — ограничение анализа только теми пользователями, которые могли увидеть изменение.
Если изменение затрагивает конкретный экран, 84% пользователей в данном примере никогда его не увидят. Их включение в анализ разбавляет эффект: реальный рост конверсии среди увидевших теряется в шуме от не-увидевших. Триггеринг — анализ только «затронутых» пользователей — резко увеличивает чувствительность теста и позволяет обнаружить эффект на меньшей выборке.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram