Размер выборки и мощность теста: вопросы для собеседования (часть 2)
Расчёт размера выборки, MDE, мощность теста, ошибка второго рода — без этого нельзя корректно спланировать эксперимент. Сколько дней держать тест? Хватит ли трафика для обнаружения эффекта в 2%? На собеседовании эти вопросы задают почти всегда, и от кандидата ждут конкретных формул и рассуждений.
Вопросы 6–10 из 20
6Вы планируете тест с фиксированными `alpha` и `power` и решили уменьшить `MDE` с 5% до 2%. Что произойдет с требуемыми `sample size` и `test duration` при том же трафике?
AУменьшатся и `sample size`, и `test duration`, потому что меньший `MDE` проще заметить
BВырастут и `sample size`, и `test duration`, потому что меньший `MDE` труднее отличить от шума
CНе изменятся, потому что `MDE` влияет только на `alpha`
DСнизится `alpha` автоматически, поэтому выборка не нужна
Ответ: Чем меньше `MDE`, тем больше нужны `sample size` и `test duration`, чтобы отличить эффект от `variance` при тех же `alpha` и `power`.
Меньший `MDE` означает, что вы пытаетесь заметить более слабый сигнал на фоне той же `variance`. При фиксированных `alpha` и `power` это требует большего `sample size` на группу. При неизменном трафике больший `sample size` напрямую приводит к большей `test duration`.
7Какое утверждение про `alpha`, `beta` и `power` верное?
A`alpha` — вероятность ложноположительного результата, а `power = 1 - beta` — вероятность обнаружить эффект при его наличии
B`power = 1 - alpha`, поэтому уменьшение `alpha` всегда автоматически увеличивает `power`
C`beta` — вероятность ложноположительного результата, а `alpha` — вероятность ложноотрицательного результата
D`alpha` — вероятность пропустить эффект, а `beta` — вероятность ошибочно найти эффект
Ответ: `alpha` контролирует вероятность ошибки I рода, а `power = 1 - beta` показывает вероятность обнаружить эффект при его наличии.
В A/B тесте `alpha` — это допустимая вероятность ложноположительного вывода (ошибка I рода). `beta` — вероятность пропустить реальный эффект (ошибка II рода). Поэтому `power = 1 - beta` — шанс обнаружить эффект заданного размера, если он действительно существует.
8Команда говорит: хотим `MDE` 10% для `conversion rate`. Что важно уточнить перед расчетом `sample size` и `test duration`?
AНужно уточнить только цвет кнопки, потому что он влияет на `conversion rate`
BНужно уточнить только `alpha`, остальные параметры не важны
CНужно уточнить только `power`, `MDE` сам по себе достаточен
DНужно уточнить: `MDE` относительный или абсолютный (в п.п.), и какой ожидаемый `baseline rate`.
Ответ: Перед расчётом важно зафиксировать, что именно значит `MDE` (relative vs absolute) и какой `baseline rate`, иначе `sample size` будет неверным.
Фраза `MDE` 10% может означать как +10% относительно текущего уровня, так и +10 процентных пунктов, и это принципиально разные абсолютные изменения. Расчет `sample size` чувствителен к абсолютному сдвигу и `baseline rate`. Поэтому перед планированием важно зафиксировать формулировку `MDE` и ожидаемый `baseline rate`, иначе `test duration` может оказаться сильно недооцененной.
9Вы распределяете трафик не `50/50`, а `90/10` в пользу `treat` при фиксированном общем трафике. Что ожидаемо произойдет с `power` для сравнения `treat` vs `control` при той же `test duration`?
A`power` вырастет, потому что в `treat` больше данных
B`power` обычно падает, потому что маленький `control` увеличивает дисперсию разницы, и для той же `power` нужен больший `sample size` или `test duration`
C`power` не изменится, если `alpha` тот же
DМеняется только `MDE`, а `power` не зависит от доли трафика
Ответ: При `90/10` при фиксированном общем трафике `power` обычно падает: точность сравнения ограничена маленьким `control`.
При распределении 90/10 самая маленькая группа `control` задает точность оценки разницы. Это увеличивает дисперсию оценок и снижает `power` при той же `test duration`. Чтобы вернуть прежний `power`, обычно требуется увеличить общий `sample size` или увеличить `test duration`.
10Грубо, при фиксированных `alpha`, `power` и `variance`, если уменьшить `MDE` в 2 раза, как изменится требуемый `sample size`?
AСтанет примерно в 2 раза меньше
BСтанет примерно в 2 раза больше
CСтанет примерно в 4 раза больше, потому что `sample size ~ 1 / MDE^2`
DНе изменится, потому что `MDE` влияет только на интерпретацию результата
Ответ: При прочих равных `sample size` примерно пропорционален `1 / MDE^2`: уменьшили `MDE` в 2 раза → нужно около 4× данных.
Интуитивно: чтобы заметить вдвое меньший сигнал, нужно гораздо больше наблюдений, иначе шум перекроет эффект. В приближенных формулах планирования часто получается связь `sample size ~ 1 / MDE^2` при фиксированных `alpha`, `power` и `variance`. Поэтому снижение `MDE` в 2 раза приводит к росту `sample size` примерно в 4 раза.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram