Какое поведение p-value вы ожидаете увидеть в корректном A/A test, если проводить много независимых прогонов?

Ap-value всегда будет около 0.5, а ниже 0.05 не будет никогда
Bp-value будет всегда близок к 0, потому что группы одинаковые
Cp-value будет всегда равен 1, потому что эффект нулевой
Dp-value будет распределён примерно равномерно, и около 5% прогонов дадут p-value < 0.05 просто случайно
Правильный ответ. В корректном A/A test p-value должен вести себя как при отсутствии эффекта, без систематического смещения.

Разбор

Если статистика и данные корректны, A/A test имитирует ситуацию без эффекта. Тогда при уровне значимости 0.05 примерно 5% прогонов могут случайно показать «значимость» — это ожидаемо. Если значимых результатов намного больше или они повторяются стабильно, это повод искать проблему в разбиении или logging.

Проверь себя · 1/3разбор после ответа
Эксперимент показал положительный эффект, и вы хотите выкатить фичу на всех пользователей. Какой план выкатки наиболее безопасен?
Тренировать A/B в Telegram

Ещё вопросы по теме «QA, SRM и раскатка»