Q: Вы проверили разницу конверсии в 20 сегментах и выбрали те, где `p-value < 0.05`. В чём главный риск и что лучше сделать?

При множественных проверках растёт шанс случайных значимых `p-value`, поэтому нужны правила контроля ошибок. Если делать много проверок, даже при отсутствии эффекта где-то случайно появится значимость — это приводит к ложным выводам по сегментам и плохим продуктовым решениям. Практика — заранее зафиксировать список сегментов, заявить гипотезы и применять поправки на множественные сравнения или подтверждающий эксперимент. Ошибка — выдавать любой найденный сегмент как доказанный эффект.

Q: В одной группе конверсия равна 0% (например, 0 успехов из 30). Что обычно более аккуратно оценивает неопределённость доли, чем нормальное приближение?

При малых `n` и крайних долях (0% или 100%) полезны интервалы на основе биномиального распределения. Нормальное приближение даёт плохие оценки на краях, потому что распределение доли сильно асимметрично при значениях около 0 и 1. Интервалы на основе биномиального распределения аккуратнее учитывают дискретность и дают реалистичную неопределённость. Это важно для корректных выводов о том, насколько данные совместимы с ненулевой конверсией. Типичная ошибка — считать 0 из 30 доказательством «точно ноль» и не давать интервала вообще.

Q: Вы посчитали конверсию как долю успешных сессий среди всех сессий, но один пользователь может создавать много сессий. Какой главный риск для теста долей?

Если испытания не независимы, то оценка стандартной ошибки доли и `p-value` могут быть неверными. Сессии одного пользователя обычно коррелируют, поэтому считать их независимыми испытаниями опасно. Это часто приводит к завышенной уверенности: стандартная ошибка становится слишком маленькой, и тест чаще показывает значимость. Типичный выход — считать долю на уровне пользователя или использовать методы, учитывающие зависимость внутри пользователя. Ошибка — игнорировать единицу анализа и радоваться очень значимому результату.

Question 1

Какая формула корректно описывает стандартную ошибку доли для разницы двух независимых долей в unpooled виде?

Accepted Answer

Для разницы независимых долей дисперсии складываются, поэтому в `SE` появляется сумма двух слагаемых. Каждая оценка доли имеет разброс порядка `p*(1-p)/n`, и для независимых групп дисперсия разницы равна сумме дисперсий. Поэтому `SE` для `p1 - p2` получается как корень из суммы `p1*(1-p1)/n1` и `p2*(1-p2)/n2`. В `z-test` под `H0` часто используют pooled версию, но сама логика сложения разбросов остается. Типичная ошибка — забыть про размер выборки и сравнивать доли как будто они точные.

Question 2

В A/B тесте разница конверсии составила +0.1 процентного пункта, при этом `p-value` оказался меньше 0.05 из-за огромной выборки. Какой вывод для продуктового решения наиболее корректен?

Accepted Answer

`p-value` говорит про обнаружимость эффекта, а решение требует оценки практической значимости и доверительного интервала. На больших выборках даже очень маленькие изменения доли становятся статистически значимыми. Поэтому важно смотреть на эффект в процентных пунктах, на доверительный интервал и на минимальный полезный эффект для бизнеса. Если +0.1 процентного пункта не окупает стоимость изменений, статистическая значимость не помогает. Типичная ошибка — принимать решение только по `p-value`, игнорируя масштаб влияния.

Question 3

Вы проверили разницу конверсии в 20 сегментах и выбрали те, где `p-value < 0.05`. В чём главный риск и что лучше сделать?

Accepted Answer

При множественных проверках растёт шанс случайных значимых `p-value`, поэтому нужны правила контроля ошибок. Если делать много проверок, даже при отсутствии эффекта где-то случайно появится значимость — это приводит к ложным выводам по сегментам и плохим продуктовым решениям. Практика — заранее зафиксировать список сегментов, заявить гипотезы и применять поправки на множественные сравнения или подтверждающий эксперимент. Ошибка — выдавать любой найденный сегмент как доказанный эффект.

Question 4

В одной группе конверсия равна 0% (например, 0 успехов из 30). Что обычно более аккуратно оценивает неопределённость доли, чем нормальное приближение?

Accepted Answer

При малых `n` и крайних долях (0% или 100%) полезны интервалы на основе биномиального распределения. Нормальное приближение даёт плохие оценки на краях, потому что распределение доли сильно асимметрично при значениях около 0 и 1. Интервалы на основе биномиального распределения аккуратнее учитывают дискретность и дают реалистичную неопределённость. Это важно для корректных выводов о том, насколько данные совместимы с ненулевой конверсией. Типичная ошибка — считать 0 из 30 доказательством «точно ноль» и не давать интервала вообще.

Question 5

Вы посчитали конверсию как долю успешных сессий среди всех сессий, но один пользователь может создавать много сессий. Какой главный риск для теста долей?

Accepted Answer

Если испытания не независимы, то оценка стандартной ошибки доли и `p-value` могут быть неверными. Сессии одного пользователя обычно коррелируют, поэтому считать их независимыми испытаниями опасно. Это часто приводит к завышенной уверенности: стандартная ошибка становится слишком маленькой, и тест чаще показывает значимость. Типичный выход — считать долю на уровне пользователя или использовать методы, учитывающие зависимость внутри пользователя. Ошибка — игнорировать единицу анализа и радоваться очень значимому результату.

Тесты для долей: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика