Вы строите таблицу сопряжённости по событиям кликов, но один пользователь может сделать десятки кликов. Почему это может быть проблемой для chi-square теста независимости?
AПотому что
chi-square работает только для данных по пользователям, а не по событиямBПотому что клики нельзя считать, их нужно усреднять
CПотому что нарушается предпосылка независимых наблюдений, и
p-value может стать искусственно маленькимDПотому что
ожидаемые частоты всегда должны быть ровно одинаковымиПравильный ответ.
chi-square предполагает независимые наблюдения, поэтому важно выбрать правильную единицу анализа.Разбор
Если один пользователь даёт много событий, строки в таблице сопряжённости перестают быть независимыми. Тогда p-value может стать слишком маленьким, потому что вы завышаете эффективный размер выборки. Частое решение — агрегировать до уровня пользователя или сессии и уже потом строить таблицу.
Проверь себя · 1/3разбор после ответа
У вас датасет с полями
user_id, device (iOS/Android) и converted (да/нет). Какую таблицу сопряжённости вы построите перед chi-square тестом независимости?Ещё вопросы по теме «Хи-квадрат и таблицы сопряжённости»
- У вас датасет с полями `user_id`, `device` (iOS/Android) и `converted` (да/нет). Какую таблицу сопряжённости вы построите перед `chi-square` тестом независимости?
- Какой смысл у `H0` в `chi-square` тесте независимости для таблицы сопряжённости?
- В таблице сопряжённости для `control/treatment` и исхода (купил/не купил) в ячейке (treatment, купил) стоит число 250. Что это означает?
- Как по таблице сопряжённости считается ожидаемое значение (ячейка) при `H0` о независимости категорий в `chi-square` тесте?
- В каком случае выводы `chi-square` теста независимости стоит интерпретировать с осторожностью?
- Все вопросы по «Хи-квадрат и таблицы сопряжённости» →