После эксперимента вы посмотрели 20 сегментов и выбрали один с `p-value=0.03`, чтобы сказать, что фича работает в этом сегменте. Что корректнее сделать?

Question

Карьерник · Accepted Answer

Правильный ответ: Признать проблему множественных сравнений: применить поправку или обозначить результат как исследовательский и подтвердить отдельным тестом. Выбор «лучшего» сегмента после просмотра многих — классический риск ложных открытий из-за множественных сравнений. Просмотр 20 сегментов и выбор одного с `p-value < 0.05` — это классическая множественная проверка с раздутой ошибкой I рода: даже при `H0` истинной для всех сегментов вероятность увидеть хотя бы один значимый результат на уровне 0.05 оценивается как `1 - 0.95^20 ≈ 0.64`. Корректная практика — применить поправку (`Holm`, `BH`) или пометить сегментный результат как исследовательский и подтвердить отдельным A/B-тестом на этом сегменте. Заявлять эффект без поправки или, наоборот, отменять анализ ради ожидания следующей итерации — крайности, не решающие задачу.

После эксперимента вы посмотрели 20 сегментов и выбрали один с `p-value=0.03`, чтобы сказать, что фича работает в этом сегменте. Что корректнее сделать?

Разбор

Ещё вопросы по теме «Множественные сравнения»

После эксперимента вы посмотрели 20 сегментов и выбрали один с p-value=0.03, чтобы сказать, что фича работает в этом сегменте. Что корректнее сделать?

Разбор

Ещё вопросы по теме «Множественные сравнения»

После эксперимента вы посмотрели 20 сегментов и выбрали один с `p-value=0.03`, чтобы сказать, что фича работает в этом сегменте. Что корректнее сделать?