Question 1

Вы сравнили метрику до изменения и после изменения и увидели рост. Какой риск чаще всего делает такой вывод о причинности ненадёжным?

Accepted Answer

Сравнение до/после спутывается с внешними факторами: рост может быть вызван сезонностью или совпавшим внешним событием, а не самим релизом. Без контрольной группы у нас нет «второй вселенной», где релиза не было, поэтому мы не знаем, как метрика повела бы себя без изменения. Рост после релиза легко объясняется сезонностью, маркетинговой акцией, изменением трафика или другим внешним фактором, совпавшим по времени. Именно поэтому в A/B-тесте контрольная группа существует одновременно с тестовой, и обе подвергаются одним и тем же внешним влияниям. «До/после» без рандомизации — это слабый дизайн с высоким риском перепутать корреляцию с причинностью.

Question 2

В группе `treatment` вы одновременно изменили текст баннера и логику расчёта скидки, а группу `control` оставили без изменений. Если метрика изменилась, в чём главная проблема интерпретации?

Accepted Answer

Если различий между группами `control` и `treatment` несколько, причинную атрибуцию конкретного изменения легко потерять. В эксперименте важно менять один фактор, иначе результат — это смесь эффектов. Если в `treatment` поменяли и текст, и скидку, по итогу нельзя сказать, сработал текст, скидка или их комбинация. Это усложняет продуктовые решения и делает повторение результата менее предсказуемым. Случайные различия в размерах групп — отдельный технический вопрос, а нулевая гипотеза формулируется и для составной интервенции; главная проблема именно в смешении факторов.

Question 3

Как чаще всего рассчитывают относительный прирост метрики между тестовой и контрольной группами в A/B-тесте?

Accepted Answer

Относительный `lift` — это разница, нормированная на базовое значение `control`. Формула «разница, делённая на контроль» показывает, на сколько процентов значение в тестовой группе отличается от базы. Это удобно, чтобы сравнивать эффекты для метрик с разными масштабами и сообщать результат в процентах. Абсолютный эффект при этом считается просто как разница двух средних в исходных единицах. Деление на тест в знаменателе или простое отношение без вычитания дают другую величину и легко вводят в заблуждение при отчётности.

Question 4

ARPU в контрольной группе равен 200, в тестовой — 210. Как корректно описать абсолютный и относительный эффект?

Accepted Answer

Абсолютный эффект — разница в единицах метрики (210 − 200 = 10), относительный — та же разница в процентах от базы контроля (10 / 200 = 5%). ARPU вырос с 200 до 210, поэтому абсолютный эффект — это `+10` денежных единиц. Относительный эффект считается как изменение, делённое на базу контрольной группы: 10 / 200 = 0.05, то есть `+5%`. Подставлять сами значения метрик вместо разницы или путать местами проценты и денежные единицы — типичные ошибки. И обратите внимание: `+10%` в качестве абсолютного эффекта — это всё ещё процент, а не абсолютная величина.

Question 5

После случайного назначения вы заметили, что в тестовой группе чуть больше пользователей `iOS`, чем в контрольной. Какое действие наиболее корректно на уровне основ экспериментов?

Accepted Answer

Небольшие перекосы по признакам возможны даже при случайной разбивке, поэтому важно делать проверки, но не «чинить» группы вручную постфактум. Случайное распределение не гарантирует идеального совпадения характеристик в каждой конкретной выборке. Обычно проверяют крупные аномалии и корректность назначения вариантов, но не меняют распределение постфактум. Если дисбаланс небольшой, он часто уменьшается при росте выборки и не ломает базовую идею причинного сравнения. Удалять подгруппу или объявлять провал по любому отклонению — это неоправданная переоценка случайных колебаний.

Основы A/B-тестирования: вопросы для собеседования (часть 4)

Вопросы 16–20 из 40

Хотите тренировать интерактивно?

Другие темы: A/B-тесты