Размер выборки и мощность теста: вопросы для собеседования (часть 3)

Расчёт размера выборки, MDE, мощность теста, ошибка второго рода — без этого нельзя корректно спланировать эксперимент. Сколько дней держать тест? Хватит ли трафика для обнаружения эффекта в 2%? На собеседовании эти вопросы задают почти всегда, и от кандидата ждут конкретных формул и рассуждений.

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепСеквенциальное тестированиеСнижение дисперсии и CUPED

Вопросы 1115 из 20

11Вы хотите сравнить варианты `A/B/C` вместо классического `A/B` при том же общем трафике и тех же `alpha`, `power` и `MDE` на каждое сравнение. Что будет с `test duration` для набора нужного `sample size` в каждой группе?
A`test duration` сократится, потому что больше вариантов ускоряют получение результата
B`test duration` вырастет, потому что при `A/B/C` трафик делится на 3 группы и медленнее набирается `sample size` в каждой
C`test duration` не изменится, потому что общий трафик тот же
D`test duration` станет меньше, потому что `alpha` автоматически делится на 3
Ответ: При `A/B/C` трафик на каждую группу меньше, поэтому для того же `sample size` обычно нужна большая `test duration`.

Если общий поток пользователей фиксирован, то при трех группах каждая получает около одной трети трафика вместо половины. Чтобы набрать тот же `sample size` на группу, потребуется больше времени. Дополнительно стоит помнить, что множественные сравнения могут потребовать контроля `alpha` на уровне набора гипотез.

12Какой принцип наиболее здравый при выборе `MDE` перед запуском эксперимента?
AВыбирать `MDE` как минимально значимый для бизнеса эффект и проверить, что `sample size` и `test duration` реалистичны при доступном трафике
BВсегда ставить `MDE` как можно меньше, тогда тест будет точнее без минусов
CСначала запустить тест, а `MDE` выбрать по факту полученной разницы
DСтавить `MDE` равным 0, тогда точно ничего не пропустим
Ответ: Практичный `MDE` — это минимально важный для бизнеса эффект, который можно реально поймать с приемлемыми `sample size` и `test duration`.

Слишком маленький `MDE` может сделать эксперимент непрактичным: потребуется огромный `sample size` и очень длинная `test duration`. Слишком большой `MDE` рискует пропустить важные улучшения. Поэтому обычно выбирают бизнес-значимый порог и сверяют его с доступным трафиком и целевой `power`.

13Эксперимент по всей аудитории рассчитан на `test duration` 14 дней при заданных `alpha`, `power` и `MDE`. Продакт хочет сделать столь же надежный вывод по `segment`, который составляет 20% трафика. Что ожидаемо произойдет с нужной длительностью для этого `segment`?
AОстанется 14 дней, потому что `segment` — это просто разрез отчета
BСократится в 2 раза, потому что сегмент меньше и однороднее
CУвеличится примерно в 5 раз, потому что сегмент — 20% трафика и `sample size` в нём набирается примерно в 5 раз медленнее.
DУвеличится примерно в 5 раз, потому что скорость набора `sample size` в `segment` в 5 раз ниже.
Ответ: При анализе `segment` с меньшей долей трафика падает скорость набора `sample size`, поэтому нужная `test duration` обычно увеличивается.

Если `segment` — это 20% трафика, то при прочих равных вы набираете наблюдения в нем примерно в 5 раз медленнее. Чтобы получить тот же `sample size` на группу для заданных `alpha`, `power` и `MDE`, нужно больше времени. Поэтому сегментный вывод стоит планировать заранее и оценивать по трафику, иначе он окажется недомощным.

14Метрика `revenue per user` очень шумная: есть редкие большие чеки, из-за чего `variance` высокая и `sample size` растет. Что чаще всего уменьшит требуемый `sample size` при неизменных `alpha` и `power`, не меняя смысл метрики полностью?
AУбрать из анализа всех пользователей с покупками, тогда `variance` станет нулевой
BПовысить `alpha`, чтобы выборка стала меньше
CДобавить еще один вариант `C`, чтобы было больше наблюдений
DСнизить `variance` метрики, например применив `winsorization` (усечение выбросов до процентиля) или `trimming` для уменьшения влияния выбросов
Ответ: Снижение `variance` метрики через устойчивую агрегацию часто уменьшает необходимый `sample size` при заданных `alpha` и `power`.

Метрики с тяжелыми хвостами дают большую `variance`, из-за чего требуется больше данных для стабильной оценки среднего. Устойчивые техники вроде `winsorization` (усечение выбросов до процентиля) или `trimming` уменьшают влияние редких экстремальных значений, сохраняя интерпретацию близкой к исходной метрике. Это снижает `variance` и, как следствие, уменьшает требуемый `sample size` при тех же `alpha` и `power`.

15Вы планируете `ramp-up`: первые 3 дня `treat` получает 10% трафика, затем разбиение становится `50/50`. Как это влияет на планирование `test duration`?
AНужно учитывать, что в первые дни медленнее набирается `N_treat`, поэтому `test duration` обычно увеличится или отсчет стоит начинать после выхода на `50/50`
B`ramp-up` уменьшит `test duration`, потому что ранние дни дают больше стабильности
C`ramp-up` не влияет на `test duration`, потому что `sample size` считается только в конце
D`ramp-up` автоматически повышает `power` без изменения `sample size`
Ответ: `Ramp-up` замедляет набор `N_treat` в начале, поэтому в планировании учитывают эффективный трафик по группам или начинают отсчёт после выхода на `50/50`.

Если `treat` получает 10% трафика, `N_treat` растет в пять раз медленнее, чем при `50/50`, и первые дни дают меньше полезных наблюдений. Это означает, что для достижения целевого `sample size` может потребоваться больше календарного времени. Часто в планировании считают эффективную скорость набора по группам или начинают отсчет после выхода на `50/50`, фиксируя это правило заранее.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепСеквенциальное тестированиеСнижение дисперсии и CUPED