Question 1

Вместо случайной рандомизации команда отправила новую версию всем пользователям iOS, а старую оставила на Android. Через месяц конверсия iOS-группы на 30% выше. Можно ли доверять этому результату?

Accepted Answer

Ошибка отбора (selection bias) возникает, когда группы формируются не случайно и систематически различаются. Рандомизация — фундамент A/B-теста. Она гарантирует, что группы в среднем одинаковы по всем характеристикам: доходу, активности, устройству. Разделение по платформе нарушает этот принцип: iOS-пользователи в среднем имеют более высокий доход и чаще совершают покупки. Наблюдаемая разница в 30% может полностью объясняться различием аудиторий, а не новой версией продукта.

Question 2

Перед запуском A/B-теста аналитик предлагает неделю собирать данные по обеим группам без включения изменения. Зачем нужен этот пре-экспериментальный период?

Accepted Answer

Пре-экспериментальный период подтверждает, что группы были сбалансированы до начала теста. Сбор данных до включения воздействия решает две задачи. Во-первых, если метрики групп уже различаются до теста — значит, рандомизация нарушена и результатам нельзя доверять. Во-вторых, зная базовый уровень метрик, можно использовать методы повышения чувствительности (CUPED), которые уменьшают дисперсию и позволяют быстрее обнаружить эффект.

Question 3

Продакт-менеджер видит, что через три дня после запуска A/B-теста p-value равен 0.03. Он хочет остановить тест и раскатить изменение. Какой подход к остановке теста будет корректным?

Accepted Answer

Тест останавливают по заранее рассчитанному размеру выборки, а не при первом значимом p-value. Подглядывание в результаты (peeking) и ранняя остановка при значимом p-value приводят к завышению ложноположительных результатов. P-value случайно проходит порог 0.05 по мере набора данных. Корректный подход — до запуска рассчитать нужный размер выборки с учётом мощности, MDE и базовой конверсии, и остановить тест только после его набора.

Question 4

Тест нового онбординга: через месяц средний чек оставшихся пользователей тестовой группы на 25% выше контроля. Но retention в тестовой группе на 10% ниже — больше пользователей ушли. Что не так с выводом о росте среднего чека?

Accepted Answer

Ошибка выжившего: если тест отсеивает часть аудитории, метрики среди оставшихся завышены. Survivorship bias возникает, когда анализируют только «выживших» пользователей. Если новый онбординг отпугнул менее платёжеспособных пользователей, оставшиеся — самые лояльные и богатые. Средний чек среди них будет выше даже без реального улучшения продукта. Правильный анализ должен учитывать всех пользователей, включая ушедших (ITT-подход).

Question 5

Вы тестируете новый алгоритм рекомендаций, метрика — средний чек. Какая формулировка нулевой гипотезы `H0` наиболее стандартна?

Accepted Answer

Стандартная `H0` в `A/B test` — отсутствие эффекта, то есть равенство метрик между `control` и `treatment`. Нулевая гипотеза обычно говорит, что изменение не влияет на метрику, и разница равна нулю. Это удобная точка отсчёта для статистической проверки. Альтернативная гипотеза `H1` затем описывает, что метрики отличаются или что есть рост, если тест односторонний.

Основы A/B-тестирования: вопросы для собеседования (часть 2)

Вопросы 6–10 из 40

Хотите тренировать интерактивно?

Другие темы: A/B-тесты