Question 1

Вы планируете тест с фиксированными уровнем значимости и мощностью и решили уменьшить `MDE` с 5% до 2%. Что произойдёт с требуемыми размером выборки и длительностью теста при том же трафике?

Accepted Answer

Чем меньше `MDE`, тем больше нужны `sample size` и `test duration`, чтобы отличить эффект от `variance` при тех же `alpha` и `power`. Меньший `MDE` означает, что вы пытаетесь заметить более слабый сигнал на фоне той же дисперсии. При фиксированных уровне значимости и мощности это требует большего размера выборки на группу. При неизменном трафике больший размер выборки напрямую приводит к большей длительности теста.

Question 2

Какое утверждение про `alpha`, `beta` и `power` верное?

Accepted Answer

`alpha` контролирует вероятность ошибки I рода, а `power = 1 - beta` показывает шанс обнаружить эффект при его наличии. В A/B тесте `alpha` — это допустимая вероятность ложноположительного вывода (ошибка I рода). `beta` — вероятность пропустить реальный эффект (ошибка II рода). Поэтому `power = 1 - beta` — шанс обнаружить эффект заданного размера, если он действительно существует. Уменьшение `alpha` при фиксированной выборке обычно снижает мощность, а не увеличивает её.

Question 3

Команда говорит: хотим MDE 10% для конверсии. Что важно уточнить перед расчётом размера выборки и длительности теста?

Accepted Answer

Перед расчётом важно зафиксировать, что значит MDE (относительный или абсолютный) и какой ожидаемый базовый уровень конверсии, иначе размер выборки будет неверным. Фраза «MDE 10%» может означать как +10% относительно текущего уровня, так и +10 процентных пунктов, и это принципиально разные абсолютные изменения. Расчёт размера выборки чувствителен к абсолютному сдвигу и базовому уровню конверсии. Поэтому перед планированием важно зафиксировать формулировку MDE и ожидаемый базовый уровень, иначе длительность теста может оказаться сильно недооценённой. Уровень значимости и мощность тоже важны, но без MDE и базового уровня их недостаточно.

Question 4

Вы распределяете трафик не 50/50, а 90/10 в пользу `treatment` при фиксированном общем трафике. Что ожидаемо произойдёт с мощностью теста для сравнения `treatment` vs `control` при той же длительности?

Accepted Answer

При 90/10 и фиксированном общем трафике мощность обычно падает: точность сравнения ограничена маленькой группой `control`. При распределении 90/10 самая маленькая группа `control` задаёт точность оценки разницы. Это увеличивает дисперсию оценок и снижает мощность при той же длительности теста. Чтобы вернуть прежний уровень мощности, обычно требуется увеличить общий размер выборки или длительность. Вариант «мощность вырастет из-за большого `treatment`» путает «больше данных в одной группе» с «точность сравнения»; вариант «не изменится при том же `alpha`» игнорирует роль дисперсии разницы; «MDE меняется, а мощность нет» противоречит формуле размера выборки.

Question 5

Грубо, при фиксированных уровне значимости, мощности и дисперсии, если уменьшить MDE в 2 раза, как изменится требуемый размер выборки?

Accepted Answer

При прочих равных размер выборки примерно пропорционален `1 / MDE^2`: уменьшили MDE в 2 раза → нужно около 4× данных. Чтобы заметить вдвое меньший сигнал, нужно гораздо больше наблюдений, иначе шум перекроет эффект. В типовых формулах планирования при фиксированных значимости, мощности и дисперсии получается связь `n ~ 1 / MDE^2`. Поэтому уменьшение MDE в 2 раза даёт рост размера выборки примерно в 4 раза. Линейная связь или независимость от MDE — частое заблуждение.

Размер выборки и мощность теста: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты