Вы посчитали конверсию как долю успешных сессий среди всех сессий, но один пользователь может создавать много сессий. Какой главный риск для теста долей?
AРиск отсутствует, потому что больше сессий означает больше точности
BНарушается независимость
trial, и стандартная ошибка доли может быть занижена; лучше агрегировать до user_id или учитывать кластеризациюCЭто автоматически делает
p-value равным 0DНужно просто поменять
z-test на точный binomial тест, и все исправитсяПравильный ответ. Если
trial не независимы, то оценка стандартной ошибки доли и p-value могут быть неверными.Разбор
Много сессий одного пользователя обычно коррелируют, поэтому считать их независимыми trial опасно. Это часто приводит к завышенной уверенности: SE становится слишком маленькой, и тест чаще показывает значимость. Типичный выход — считать долю на уровне пользователя или использовать методы, учитывающие зависимость внутри пользователя. Ошибка — игнорировать единицу анализа и радоваться 'очень значимому' результату.
Проверь себя · 1/3разбор после ответа
Если
n увеличили в 4 раза при том же p, как примерно изменится стандартная ошибка доли SE = sqrt(p*(1-p)/n)?Ещё вопросы по теме «Тесты для долей»
- Что такое доля в задачах про конверсию?
- `конверсия` выросла с 5% до 6%. Как корректно назвать абсолютное изменение?
- Если `n` увеличили в 4 раза при том же `p`, как примерно изменится стандартная ошибка доли `SE = sqrt(p*(1-p)/n)`?
- Когда двухвыборочный `z-test` для сравнения долей обычно уместен?
- Вы считаете конверсию из визита в покупку на уровне пользователя. Что корректно считать `success` и что считать `trial` для расчёта доли?
- Все вопросы по «Тесты для долей» →