Question 1

Компания провела A/B-тест бесплатной доставки на российском рынке: конверсия выросла на 15%. Продакт хочет раскатить это на все страны без дополнительных тестов. Корректен ли такой подход?

Accepted Answer

Внешняя валидность — применимость результатов за пределами конкретного эксперимента. Результат A/B-теста внутренне валиден (эффект реален для данной аудитории), но его нельзя автоматически переносить на другие условия. Бесплатная доставка в России, где средний чек и стоимость логистики одни, может не работать в стране с другой структурой расходов. Культурные различия, конкуренция, привычки — всё влияет. Для каждого нового рынка нужен отдельный тест или как минимум проверка на подвыборке.

Question 2

Вы заранее формулируете `H1` как рост конверсии в тестовой группе по сравнению с контрольной. Какая `H0` соответствует односторонней проверке?

Accepted Answer

При односторонней проверке `H0` обычно утверждает, что улучшения нет: эффект нулевой или отрицательный. Если `H1` говорит про рост метрики, то нулевая гипотеза должна покрывать все случаи без улучшения: и отсутствие разницы, и ухудшение. Поэтому `H0` формулируют как «метрика в тесте не выше, чем в контроле». Это фиксирует направление проверки и помогает корректно трактовать результат `p-value`. Двусторонняя формулировка, обратное направление или утверждение про распределение 50/50 — это другие гипотезы и не соответствуют односторонней проверке роста.

Question 3

Тест запущен в понедельник и к пятнице набрал нужный размер выборки. Конверсия теста на 8% выше контроля, p-value = 0.01. Аналитик предлагает продлить тест до следующего понедельника. Зачем?

Accepted Answer

Тест должен охватывать минимум один полный бизнес-цикл, потому что поведение пользователей различается по дням недели. Покупательское поведение в будни и выходные может сильно отличаться: разный трафик, разная конверсия, разная аудитория. Если тест длился только рабочие дни, результат не учитывает выходных. Эффект, значимый в будни, может исчезнуть в выходные — или наоборот. Минимальная длительность теста — один полный недельный цикл, а для продуктов с месячной периодичностью — один месяц.

Question 4

В эксперименте часть пользователей увидела и контрольный, и тестовый вариант (например, на разных устройствах). Какое последствие наиболее вероятно?

Accepted Answer

Если пользователи получают оба варианта, нарушается чистота сравнения контроля и теста и падает интерпретируемость эффекта. Смешивание вариантов у одного пользователя создаёт контаминацию: опыт перестаёт быть строго разделён на две альтернативы. Это может уменьшить наблюдаемый размер эффекта или даже изменить его направление. Поэтому обычно закрепляют вариант за пользователем и следят за тем, чтобы показы были консистентны между устройствами. Утверждения «так точнее», «рандомизация идеальна» и «значит, нулевая верна» — типичные ошибки.

Question 5

Что рандомизация НЕ гарантирует в конкретном запуске A/B-теста?

Accepted Answer

Рандомизация не обещает идеального баланса по всем признакам в каждом конкретном эксперименте. Случайное распределение делает группы сопоставимыми в среднем, но в отдельном запуске возможны небольшие перекосы по признакам из-за случайности. Это нормально и часто уменьшается при росте выборки. Важно проводить проверки согласованности групп, но не пытаться «ручным образом» исправлять рандомизацию постфактум через выбрасывание пользователей.

Основы A/B-тестирования: вопросы для собеседования (часть 7)

Вопросы 31–35 из 40

Хотите тренировать интерактивно?

Другие темы: A/B-тесты