Команда смотрит результаты каждый день и останавливает эксперимент, как только видит p-value < 0.05. Какой основной риск такого подхода?
AРиск
SRM (Sample Ratio Mismatch) автоматически возрастает с каждым просмотром дашбордаBУвеличивается вероятность ложноположительных выводов из-за множественных проверок без правил остановки
CНевозможно посчитать среднее значение метрики без полного месяца данных
DЭксперимент всегда покажет нулевой эффект, если проверять часто
Правильный ответ. Частые проверки и остановка «как только стало значимо» (optional stopping) увеличивают риск ложноположительных выводов без корректного sequential-дизайна.
Разбор
Если останавливать тест при первом «красивом» p-value, вы фактически делаете много попыток найти значимость. Это ведёт к завышенной доле ложноположительных результатов и нестабильным решениям. Лучше заранее определить длительность, критерии остановки или использовать корректные последовательные методы.
Проверь себя · 1/3разбор после ответа
Вы запустили
A/A test и получили статистически значимую разницу по ключевой метрике. Что правильнее всего сделать перед запуском A/B?Ещё вопросы по теме «QA, SRM и раскатка»
- Команда готовит крупный A/B‑эксперимент и хочет сначала запустить `A/A test`. Какова главная цель `A/A test`?
- Что такое `SRM` (Sample Ratio Mismatch) (`sample ratio mismatch`) в контексте экспериментов?
- В эксперименте конверсия в варианте B резко просела, но бизнес подозревает поломку трекинга. Какое действие лучше сделать в первую очередь?
- Эксперимент показал положительный эффект, и вы хотите выкатить фичу на всех пользователей. Какой план выкатки наиболее безопасен?
- В первые сутки эксперимента метрика выросла на 12%, но через 3 дня рост исчез и эффект стал около 0. Какое объяснение наиболее вероятно и что делать дальше?
- Все вопросы по «QA, SRM и раскатка» →