У вас 12 регионов, и несколько регионов дают очень малые counts, из-за чего появляются маленькие `ожидаемые частоты`. Какой шаг чаще всего помогает перед применением `chi-square`?

Question

Карьерник · Accepted Answer

Правильный ответ: Объединить редкие регионы в одну категорию (например, other), чтобы увеличить ожидаемые частоты до приемлемых значений. Увеличить ожидаемые частоты можно через укрупнение редких категорий перед `chi-square`. Тест хи-квадрат опирается на аппроксимацию распределения статистики хи-квадратом, и эта аппроксимация ломается при малых ожидаемых частотах в ячейках (обычно требуют ≥5). Стандартный приём — объединить редкие категории в `other`, чтобы поднять ожидаемые частоты, либо взять точный тест Фишера для маленьких таблиц. `t-test` не годится: он сравнивает средние, а у нас доли по категориям. Парные точные тесты с минимальным `p-value` без поправки раздувают ошибку I рода. Дальнейшая детализация регионов делает ячейки ещё мельче и усугубляет проблему.

Разбор

Ещё вопросы по теме «Хи-квадрат и таблицы сопряжённости»