Размер выборки и мощность теста: вопросы для собеседования (часть 4)

Расчёт размера выборки, MDE, мощность теста, ошибка второго рода — без этого нельзя корректно спланировать эксперимент. Сколько дней держать тест? Хватит ли трафика для обнаружения эффекта в 2%? На собеседовании эти вопросы задают почти всегда, и от кандидата ждут конкретных формул и рассуждений.

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепСеквенциальное тестированиеСнижение дисперсии и CUPED

Вопросы 1620 из 20

16В эксперименте вы заранее объявили 5 `primary metrics` и будете считать успехом, если хотя бы по одной `p-value < alpha`. Что происходит с общей вероятностью ложноположительного вывода и что обычно делают лучше?
AОбщая вероятность ложноположительного вывода становится меньше `alpha`, потому что метрик больше
BОбщая вероятность остается ровно `alpha`, если метрики независимы
CОбщая вероятность становится выше `alpha`, поэтому лучше выбрать одну `primary metric` или скорректировать `alpha` (например, `Bonferroni`/`Holm`).
DОбщая вероятность растет только если `power` меньше 50%
Ответ: Если успех = «хотя бы одна `p-value < alpha`» по нескольким метрикам, то общий риск ложноположительного вывода (FWER) превышает `alpha`; лучше фиксировать одну `primary metric` или контролировать множественные проверки.

Когда вы делаете несколько проверок и выбираете любую значимую, шанс случайно получить хотя бы один ложный сигнал растет. Поэтому общий уровень ошибки уже не равен исходному `alpha`. На практике заранее фиксируют одну `primary metric` или применяют контроль множественных проверок, например `Bonferroni`, чтобы ограничить общий риск ложноположительных выводов.

17Эксперимент завершился по плану, но `p-value > alpha`. Какое заключение наиболее корректно, если вы заранее планировали `MDE` и целевой `power`?
AНет статистических оснований подтверждать эффект размером `MDE` и больше при заданных `alpha` и `power`, но меньший эффект всё ещё возможен.
BЭффекта точно нет, потому что `p-value > alpha`
CНужно немедленно увеличить `alpha` до 50%, иначе тесты бессмысленны
DЭто обязательно `SRM` (Sample Ratio Mismatch), потому что значимости нет
Ответ: Если тест спланирован под `MDE` и заданный `power`, то `p-value > alpha` означает: эффект уровня `MDE` не подтвердился; это не доказательство нуля.

Если эксперимент был спланирован на обнаружение эффекта размером `MDE` с целевым `power`, то отсутствие значимости говорит, что такой эффект не подтвердился на данных. Однако это не доказывает нулевой эффект: реальный эффект может быть меньше `MDE` или зависеть от сегментов. Корректная интерпретация — связать результат с заранее заданным `MDE` и границами чувствительности теста.

18Команда каждый день смотрит `p-value` и прекращает эксперимент, как только `p-value < alpha`, не используя поправки. Какой главный риск для `alpha`?
AФактический `alpha` станет меньше, потому что вы внимательнее следите за результатом
BФактический `beta` станет больше, но `alpha` не изменится
CФактический `alpha` станет выше заявленного, потому что многократные проверки увеличивают шанс случайного `p-value < alpha`
DМеняется только `MDE`, а ошибки I и II рода не затрагиваются
Ответ: Повторные проверки без корректного `sequential` дизайна раздувают фактический `alpha`.

Если вы многократно смотрите на `p-value` и останавливаетесь при первом сигнале, вы увеличиваете шанс поймать случайное отклонение. В результате фактическая вероятность ложноположительного вывода становится выше целевого `alpha`. Чтобы контролировать `alpha`, используют заранее заданные правила остановки и `sequential` методы или фиксируют `test duration`.

19Команда хочет детектить относительный `MDE` = 5% в метрике `conversion rate`. Сравните два продукта: `baseline rate` 1% и `baseline rate` 10%. При одинаковом относительном `MDE` где обычно нужен больший `sample size` и почему?
AБольше `sample size` нужен при `baseline rate` 10%, потому что относительный `MDE` не зависит от `baseline rate`
BОдинаковый `sample size`, потому что относительный `MDE` одинаковый
CБольше `sample size` нужен при `baseline rate` 1%, потому что при одинаковом относительном `MDE` абсолютный сдвиг меньше
DНельзя сравнить без знания `alpha` и `power`, даже если они одинаковые
Ответ: При фиксированном относительном `MDE` низкий `baseline rate` дает очень маленький абсолютный эффект, поэтому требуется больший `sample size`.

Относительный `MDE` в 5% означает, что абсолютное изменение равно `baseline rate * 0,05`. При `baseline rate` 1% это всего 0,05 процентного пункта, а при 10% — 0,5 процентного пункта. Меньший абсолютный сдвиг труднее отличить от шума, поэтому для `baseline rate` 1% обычно нужен больший `sample size` при тех же `alpha` и `power`.

20У вас два кандидата на `primary metric`: `conversion rate` и `revenue per user`. При прочих равных какая метрика чаще требует больший `sample size` и почему?
A`conversion rate` почти всегда требует больший `sample size`, потому что это доля
BОбычно требуемый `sample size` одинаковый, так как зависит только от `alpha`
C`revenue per user` чаще требует больший `sample size`, потому что у нее выше `variance` и тяжелые хвосты
DБольший `sample size` всегда у метрики с большим `baseline rate`
Ответ: Метрики с более высокой `variance` обычно требуют большего `sample size` для заданных `alpha`, `power` и `MDE`.

`Conversion rate` ограничена [0;1] и часто имеет более стабильную дисперсию. `Revenue per user` обычно имеет тяжёлые хвосты из-за редких крупных покупок, поэтому шум выше и для тех же `alpha`/`power`/`MDE` обычно требуется больше данных и времени.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепСеквенциальное тестированиеСнижение дисперсии и CUPED