Question 1

Вы хотите сравнить три варианта `A/B/C` вместо классического `A/B` при том же общем трафике и тех же `alpha`, мощности и `MDE` на каждое сравнение. Что будет с длительностью теста для набора нужного размера выборки в каждой группе?

Accepted Answer

При трёх вариантах трафик на группу меньше, поэтому для того же размера выборки обычно нужна большая длительность теста. Если общий поток пользователей фиксирован, то при трёх группах каждая получает около одной трети трафика вместо половины. Чтобы набрать тот же размер выборки на группу, потребуется больше времени. Дополнительно множественные сравнения могут потребовать контроля `alpha` на уровне набора гипотез — но сам по себе этот контроль длительность не сокращает. Идея, что больше вариантов ускоряют тест или что `alpha` сама делится на 3 в нашу пользу, — частые ошибки.

Question 2

Какой принцип наиболее здравый при выборе `MDE` перед запуском эксперимента?

Accepted Answer

Практичный `MDE` — это минимально важный для бизнеса эффект, который можно реально поймать с приемлемыми размером выборки и длительностью теста. Слишком маленький `MDE` может сделать эксперимент непрактичным: потребуется огромный размер выборки и очень длинная длительность теста. Слишком большой `MDE` рискует пропустить важные улучшения. Поэтому обычно выбирают бизнес-значимый порог и сверяют его с доступным трафиком и целевой мощностью.

Question 3

Эксперимент по всей аудитории рассчитан на длительность 14 дней при заданных уровне значимости, мощности и `MDE`. Продакт хочет сделать столь же надёжный вывод по сегменту, который составляет 20% трафика. Что ожидаемо произойдёт с нужной длительностью для этого сегмента?

Accepted Answer

При анализе сегмента с меньшей долей трафика падает скорость набора выборки, поэтому нужная длительность увеличивается обратно пропорционально доле. Если сегмент — 20% трафика, то при прочих равных вы набираете в нём наблюдения примерно в 5 раз медленнее. Чтобы получить тот же размер выборки на группу при тех же уровне значимости, мощности и `MDE`, нужно примерно в 5 раз больше времени. Поэтому сегментный вывод стоит планировать заранее и оценивать по доступному трафику, иначе он окажется недомощным. Сокращение времени или ссылка на «однородность» сегмента не выдерживают проверки расчётом.

Question 4

Метрика «выручка на пользователя» очень шумная: есть редкие большие чеки, из-за чего дисперсия высокая и требуемый размер выборки растёт. Что чаще всего уменьшит размер выборки при неизменных `alpha` и мощности, не меняя смысл метрики полностью?

Accepted Answer

Снижение дисперсии метрики через устойчивую агрегацию часто уменьшает необходимый размер выборки при заданных `alpha` и мощности. Метрики с тяжёлыми хвостами дают большую дисперсию, поэтому для стабильной оценки среднего нужно больше данных. Устойчивые техники вроде `winsorization` (усечение на крайних процентилях) или `trimming` уменьшают влияние редких экстремальных значений и сохраняют интерпретацию, близкую к исходной метрике. Это снижает дисперсию и, следовательно, уменьшает требуемый размер выборки при тех же `alpha` и мощности. Удаление всех платящих ломает саму метрику, рост `alpha` ухудшает контроль ошибки I рода, а добавление третьей группы только увеличивает общее число нужных наблюдений.

Question 5

Вы планируете постепенный запуск (`ramp-up`): первые 3 дня тестовая группа получает 10% трафика, затем разбиение становится 50/50. Как это влияет на планирование длительности теста?

Accepted Answer

Постепенный запуск замедляет набор тестовой группы в начале, поэтому в планировании учитывают эффективный трафик по группам или начинают отсчёт после выхода на 50/50. Если тестовая группа получает 10% трафика, наблюдения копятся в пять раз медленнее, чем при разбиении 50/50, и первые дни дают меньше полезных данных. Это означает, что для достижения целевого размера выборки потребуется больше календарного времени. Часто в планировании считают эффективную скорость набора по группам или начинают отсчёт после выхода на 50/50, фиксируя это правило заранее. Иначе мощность теста окажется ниже ожидаемой и решение придётся откладывать.

Размер выборки и мощность теста: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты