Основы A/B-тестирования: вопросы для собеседования (часть 2)

Основы A/B-тестирования — обязательный блок для любого аналитика в продуктовой компании. Что такое нулевая гипотеза, как определить размер выборки, когда можно останавливать тест — базовые вопросы, которые задают в первую очередь. Без понимания основ невозможно корректно интерпретировать результаты экспериментов.

Дизайн эксперимента и рандомизацияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED

Вопросы 610 из 40

6Вместо случайной рандомизации команда отправила новую версию всем пользователям iOS, а старую оставила на Android. Через месяц конверсия iOS-группы на 30% выше. Можно ли доверять этому результату?
AРезультат достоверный, потому что команда собрала достаточный размер выборки для обеих групп
BРезультат достоверный, потому что группы были определены заранее и не менялись в ходе теста
CРезультат смещён: пользователи iOS и Android различаются по платёжеспособности и поведению
DРезультат недостоверный только из-за разного размера групп — 60% против 40%
Ответ: Ошибка отбора (selection bias) возникает, когда группы формируются не случайно и систематически различаются.

Рандомизация — фундамент A/B-теста. Она гарантирует, что группы в среднем одинаковы по всем характеристикам: доходу, активности, устройству. Разделение по платформе нарушает этот принцип: iOS-пользователи в среднем имеют более высокий доход и чаще совершают покупки. Наблюдаемая разница в 30% может полностью объясняться различием аудиторий, а не новой версией продукта.

7Перед запуском A/B-теста аналитик предлагает неделю собирать данные по обеим группам без включения изменения. Зачем нужен этот пре-экспериментальный период?
AПроверить, что новая функциональность технически работает без ошибок и багов
BНакопить достаточно пользователей в каждой группе для статистической значимости
CУбедиться, что метрики обеих групп были одинаковыми до начала воздействия, и зафиксировать базовый уровень
DДать пользователям привыкнуть к интерфейсу перед тем, как показывать им изменения
Ответ: Пре-экспериментальный период подтверждает, что группы были сбалансированы до начала теста.

Сбор данных до включения воздействия решает две задачи. Во-первых, если метрики групп уже различаются до теста — значит, рандомизация нарушена и результатам нельзя доверять. Во-вторых, зная базовый уровень метрик, можно использовать методы повышения чувствительности (CUPED), которые уменьшают дисперсию и позволяют быстрее обнаружить эффект.

8Продакт-менеджер видит, что через три дня после запуска A/B-теста p-value равен 0.03. Он хочет остановить тест и раскатить изменение. Какой подход к остановке теста будет корректным?
AКак только p-value станет меньше 0.05 — дальше держать тест бессмысленно
BКогда набран заранее рассчитанный размер выборки и прошёл минимальный срок в один полный бизнес-цикл
CРовно через семь дней после запуска, потому что неделя покрывает все дни недели
DКогда уверенность в результате субъективно кажется команде достаточно высокой
Ответ: Тест останавливают по заранее рассчитанному размеру выборки, а не при первом значимом p-value.

Подглядывание в результаты (peeking) и ранняя остановка при значимом p-value приводят к завышению ложноположительных результатов. P-value случайно проходит порог 0.05 по мере набора данных. Корректный подход — до запуска рассчитать нужный размер выборки с учётом мощности, MDE и базовой конверсии, и остановить тест только после его набора.

9Тест нового онбординга: через месяц средний чек оставшихся пользователей тестовой группы на 25% выше контроля. Но retention в тестовой группе на 10% ниже — больше пользователей ушли. Что не так с выводом о росте среднего чека?
AЭффект реальный, потому что оставшиеся пользователи стали больше покупать благодаря новому онбордингу
BСравнение только среди оставшихся пользователей смещено: новый онбординг мог отсеять менее платёжеспособных
CРезультат объясняется сезонностью: через месяц после запуска покупательная активность выросла у всех
DРазмер выборки через месяц стал слишком маленьким для корректных статистических выводов
Ответ: Ошибка выжившего: если тест отсеивает часть аудитории, метрики среди оставшихся завышены.

Survivorship bias возникает, когда анализируют только «выживших» пользователей. Если новый онбординг отпугнул менее платёжеспособных пользователей, оставшиеся — самые лояльные и богатые. Средний чек среди них будет выше даже без реального улучшения продукта. Правильный анализ должен учитывать всех пользователей, включая ушедших (ITT-подход).

10Вы тестируете новый алгоритм рекомендаций, метрика — средний чек. Какая формулировка `H0` наиболее стандартна?
A`H0`: средний чек в `treatment` равен среднему чеку в `control`
B`H0`: новый алгоритм обязан улучшить средний чек
C`H0`: средний чек вырастет ровно на 5%
D`H0`: пользователи распределены строго 50/50 по группам
Ответ: Стандартная `H0` в `A/B test` — отсутствие эффекта, то есть равенство метрик между `control` и `treatment`.

Нулевая гипотеза обычно говорит, что изменение не влияет на метрику, и разница равна нулю. Это удобная точка отсчёта для статистической проверки. Альтернативная гипотеза `H1` затем описывает, что метрики отличаются или что есть рост, если тест односторонний.

12345678

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED