Question 1

В `A/B/n` вы сравниваете контроль и 3 варианта по одной первичной метрике, а цена ошибочного запуска очень высока. Какой выбор коррекции наиболее логичен?

Accepted Answer

Если критично избежать даже одного `false positives`, выбирают методы контроля `family-wise error` вроде `Bonferroni` или `Holm`. В подтверждающих запусках чаще всего важнее надёжность, чем количество обнаруженных эффектов. `Bonferroni` и `Holm` специально нацелены на ограничение вероятности хотя бы одной ложной находки в семье сравнений. Это может уменьшить шанс «победы» для настоящего эффекта, но снижает риск дорогостоящей ошибки.

Question 2

Вы настроили контроль `FDR` на 0.1 и после `Benjamini–Hochberg` получили 20 значимых сравнений. Как корректнее интерпретировать это число?

Accepted Answer

Контроль `FDR` задаёт ожидаемую долю `false positives` среди объявленных значимыми, а не вероятность ошибки для каждой отдельной находки. `FDR` — это ожидание по повторениям процесса, а не гарантия для одного конкретного списка находок. Поэтому корректно говорить про долю ложных находок среди значимых в среднем. Для отдельного сравнения утверждение про «10% вероятность ложности» обычно не следует напрямую из `FDR`. Это важная интерпретационная ловушка в отчётах.

Question 3

Команда запустила `A/B/n` с 6 вариантами, посмотрела результаты и решила протестировать только самый лучший вариант против контроля на том же датасете, используя `alpha` 0.05 как в `A/B`. В чём главная проблема такого подхода?

Accepted Answer

Если сначала выбрать победителя по данным, а затем проверить его теми же данными, то из-за отбора увеличивается риск `false positives`. Когда вы выбираете лучший вариант из нескольких, вы уже используете множественные сравнения, даже если формально считаете только один p-value. Повторная проверка на том же датасете не «обнуляет» этот выбор и делает выводы слишком оптимистичными. Корректнее заранее фиксировать план сравнений и коррекцию или подтверждать победителя на независимых данных. Иначе «победа» может быть просто удачной флуктуацией.

Question 4

В `A/B/n` (A — контроль, B и C — варианты) вы применили `Holm` на сравнения B против A и C против A по основной метрике. После коррекции значимым осталось только сравнение C против A. Как корректно сформулировать вывод?

Accepted Answer

После `Holm` корректно делать только те выводы, которые соответствуют проверенным и скорректированным гипотезам. Коррекция контролирует `family-wise error` для набора сравнений, которые вы включили в процедуру. Если значимым осталось C против A, то именно это утверждение вы можете поддерживать статистически. Отсутствие значимости для B против A не доказывает равенство, а также не даёт права сравнивать B и C без отдельного теста. Для продуктового решения также важно дополнительно оценить практическую значимость и риски.

Question 5

Вы делаете `A/B/n` с 1 контролем и 12 вариантами креатива, цель — отобрать несколько перспективных кандидатов для следующего подтверждающего теста. Какой подход к множественным проверкам чаще соответствует этой цели?

Accepted Answer

Для отбора кандидатов в поисковой фазе часто используют `FDR`, чтобы балансировать между находками и долей `false positives`. В поисковой задаче обычно важнее не пропустить перспективные варианты, чем полностью исключить одну ложную находку. `FDR` даёт больше мощности при большом числе сравнений и задаёт понятный контроль качества shortlist. Затем shortlist подтверждают отдельным экспериментом или более строгой процедурой.

Множественное тестирование: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты