Question 1

Что означает параметр бета (β) в планировании A/B-теста?

Accepted Answer

Бета — вероятность ошибки II рода (пропустить реальный эффект); мощность теста равна `1 − β`. Бета описывает риск ложноотрицательного вывода: эффект существует, но тест его не выявил при выбранном пороге. Соответственно, мощность теста равна `1 − β` — это вероятность обнаружить эффект размера `MDE` или больше, если он действительно есть. При планировании эксперимента обычно задают целевую мощность, например 80% или 90%. Уровень значимости alpha и `MDE` — это другие параметры, их не нужно путать с бетой.

Question 2

Ежедневный поток подходящих под тест пользователей удвоился, а требуемый размер выборки на группу и разбиение `50/50` не изменились. Что ожидаемо произойдёт с длительностью теста?

Accepted Answer

При фиксированном размере выборки и стабильном `50/50` длительность примерно обратно пропорциональна потоку: трафик ×2 → длительность ≈ /2. Если в день приходит вдвое больше подходящих под тест пользователей, то вдвое быстрее набираются обе группы — `N_treat` и `N_control`. При тех же целевых размерах выборки на группу это примерно вдвое сокращает календарную длительность. Уровень значимости `alpha` влияет на сам требуемый размер выборки, но не на скорость её набора. На практике поправку могут давать выходные и сезонность, но базовая зависимость остаётся почти линейной.

Question 3

Вы повышаете требование к мощности теста с 80% до 90% при фиксированных уровне значимости и `MDE`. Что ожидаемо случится с размером выборки?

Accepted Answer

Более высокий `power` означает меньший `beta`, и для этого обычно нужен больший `sample size`. Мощность 90% означает, что вы хотите с высокой вероятностью находить эффект размера `MDE`, если он есть. Это эквивалентно снижению вероятности ошибки II рода и требует больше наблюдений при той же дисперсии метрики. Поэтому при прочих равных размер выборки растёт.

Question 4

Вы держите `MDE` и `power` фиксированными, но хотите снизить `alpha` с 5% до 1%. Что в среднем произойдёт с требуемым размером выборки?

Accepted Answer

Уменьшение `alpha` делает критерий строже и обычно увеличивает требуемый размер выборки при фиксированных `MDE` и `power`. Когда вы снижаете `alpha`, вы уменьшаете допустимую вероятность ложноположительного вывода. Чтобы при этом сохранить прежний `power` для того же `MDE`, нужно больше данных, иначе тест будет слишком консервативным. Поэтому требуемый размер выборки на группу обычно растёт; конкретный коэффициент зависит от метрики и её дисперсии.

Question 5

Калькулятор размера выборки дал требование `N_treat = 20000` и `N_control = 20000`. В эксперимент ежедневно попадает 5000 новых пользователей при разбиении 50/50. Какова минимальная длительность теста в днях при стабильном трафике?

Accepted Answer

Длительность теста ≈ требуемый размер выборки на группу, делённый на ежедневный поток в эту группу. При разбиении 50/50 из 5000 пользователей в день каждая группа получает примерно 2500 человек в день. Чтобы набрать `N_treat = 20000`, нужно `20000 / 2500 = 8` дней. Аналогично для `N_control`, поэтому минимальная длительность теста около 8 дней при стабильном трафике. Ошибочные оценки 4–6 дней получаются, если делить общий поток на размер одной группы или пропустить разбиение пополам.

Вопросы по теме «Размер выборки и мощность теста»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты