Основы A/B-тестирования: вопросы для собеседования (часть 4)

Основы A/B-тестирования — обязательный блок для любого аналитика в продуктовой компании. Что такое нулевая гипотеза, как определить размер выборки, когда можно останавливать тест — базовые вопросы, которые задают в первую очередь. Без понимания основ невозможно корректно интерпретировать результаты экспериментов.

Дизайн эксперимента и рандомизацияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED

Вопросы 1620 из 40

16Вы сравнили метрику до изменения и после изменения и увидели рост. Какой риск чаще всего делает такой вывод о причинности ненадёжным?
AМетрика не может меняться без изменения продукта
BЕсли есть рост, то `H0` автоматически отвергнута
CВнешние факторы и сезонность могли изменить метрику одновременно с релизом
DРандомизация всегда ухудшает метрику, поэтому сравнение до/после лучше
Ответ: Сравнение до/после смешивает эффект изменения с любыми внешними событиями и трендами.

Даже если продукт не менялся, метрика может расти из-за праздников, новостей, маркетинга или изменения трафика. Поэтому рост после релиза не равен причинному эффекту релиза. `A/B test` добавляет параллельную контрольную группу и помогает отделить эффект от внешнего фона.

17В `treatment` вы одновременно изменили текст баннера и логику расчёта скидки, а `control` оставили как есть. Если метрика изменилась, в чём главная проблема интерпретации?
AПроблемы нет, чем больше изменений, тем сильнее `effect size`
BПроблема только в том, что размер групп может отличаться на 1–2 пользователя
CПроблема только в том, что `H0` нельзя сформулировать при двух изменениях
DНельзя понять, какое из изменений вызвало эффект, потому что фактор не один
Ответ: Если различий между `control` и `treatment` несколько, причинную интерпретацию конкретного изменения потерять легко.

В эксперименте важно менять один фактор, иначе вы получаете смесь эффектов. В такой постановке вы не сможете сказать, сработал текст, скидка или их комбинация. Это усложняет продуктовые решения и делает повторение результата менее предсказуемым.

18Как чаще всего рассчитывают относительный `lift` метрики между `treatment` и `control`?
A`lift = treatment + control`
B`lift = (treatment - control) / control`
C`lift = (control - treatment) / treatment`
D`lift = treatment / control`
Ответ: Относительный `lift` — это разница, нормированная на базовое значение `control`.

Формула `lift = (treatment - control) / control` показывает, на сколько процентов `treatment` отличается от базы. Это удобно для сравнения эффектов между метриками с разными масштабами. Важно помнить, что абсолютный эффект при этом считается как `treatment - control` в исходных единицах.

19ARPU в `control` равен 200, в `treatment` равен 210. Как корректно описать абсолютный и относительный эффект?
AАбсолютный эффект 200, относительный эффект 210
BАбсолютный эффект 5%, относительный эффект 10
CАбсолютный эффект +10, относительный `lift` +5%
DАбсолютный эффект +5%, относительный `lift` +10
Ответ: Абсолютный эффект измеряется в тех же единицах, что метрика, а относительный `lift` — в процентах от базы `control`.

Абсолютная разница: 210 − 200 = 10 единиц ARPU. Относительный `lift` по формуле (210 − 200) / 200 равен 5%. В продуктовых решениях полезно смотреть на оба: абсолютный эффект для денег и относительный для сопоставления между метриками.

20После `randomization` вы заметили, что в `treatment` чуть больше пользователей iOS, чем в `control`. Какое действие наиболее корректно на уровне основ экспериментов?
AПерераспределить пользователей вручную до идеального равенства по платформам
BСразу признать эксперимент некорректным, потому что любое отличие означает провал рандомизации
CУдалить всех iOS пользователей из анализа, чтобы группы совпали
DПонимать, что небольшой дисбаланс возможен случайно, сделать sanity checks и продолжать с детерминированной рандомизацией
Ответ: Небольшие перекосы по признакам возможны даже при `randomization`, поэтому важно делать проверки, но не «чинить» группы вручную.

Случайное распределение не гарантирует идеального совпадения характеристик в каждой конкретной выборке. Обычно проверяют крупные аномалии и корректность назначения вариантов, но не меняют распределение постфактум. Если дисбаланс небольшой, он часто уменьшается при росте выборки и не ломает базовую идею причинного сравнения.

12345678

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED