Question 1

В таблице сопряжённости есть ячейка с наблюдаемой частотой 0 (например, в одном сегменте никто не купил). Что важнее всего проверить перед выводами по `chi-square`?

Accepted Answer

Ноль в наблюдаемой ячейке сам по себе не запрет на тест, но важно проверить ожидаемые частоты в этой ячейке. Если ожидаемые частоты в ячейке тоже малы, приближение `chi-square` может работать хуже. Если же ожидаемое значение достаточно велико, наблюдаемый ноль — это сильное отклонение и может дать большой вклад в статистику. Типичная ошибка — автоматически «лечить» нули без проверки ожидаемых значений.

Question 2

Если в таблице сопряжённости поменять местами строки и столбцы, изменится ли результат теста независимости `chi-square` (значение статистики, число степеней свободы, `p-value`)?

Accepted Answer

Для теста независимости `chi-square` неважно, что вы назвали строкой, а что столбцом таблицы сопряжённости — результат тот же. Ожидаемая частота в каждой ячейке считается как произведение маргиналов, делённое на общий объём, и не зависит от того, что вы назвали строкой, а что столбцом. Поэтому набор пар (наблюдаемая, ожидаемая) и сумма квадратов отклонений остаются теми же — статистика `chi-square`, число степеней свободы и `p-value` не меняются. Типичная ошибка — ожидать разные ответы из-за визуальной ориентации таблицы. Также не играет роли наличие нулевых ячеек: они влияют на применимость теста, а не на симметрию.

Question 3

У вас 12 регионов, и несколько регионов дают очень малые counts, из-за чего появляются маленькие `ожидаемые частоты`. Какой шаг чаще всего помогает перед применением `chi-square`?

Accepted Answer

Увеличить ожидаемые частоты можно через укрупнение редких категорий перед `chi-square`. Тест хи-квадрат опирается на аппроксимацию распределения статистики хи-квадратом, и эта аппроксимация ломается при малых ожидаемых частотах в ячейках (обычно требуют ≥5). Стандартный приём — объединить редкие категории в `other`, чтобы поднять ожидаемые частоты, либо взять точный тест Фишера для маленьких таблиц. `t-test` не годится: он сравнивает средние, а у нас доли по категориям. Парные точные тесты с минимальным `p-value` без поправки раздувают ошибку I рода. Дальнейшая детализация регионов делает ячейки ещё мельче и усугубляет проблему.

Question 4

У вас есть только проценты конверсии по группам, но нет абсолютных размеров групп. Можно ли корректно провести тест хи-квадрат на независимость?

Accepted Answer

Для теста хи-квадрат нужны абсолютные частоты в таблице сопряжённости, а не только проценты. Статистика хи-квадрат сравнивает наблюдаемые частоты с ожидаемыми, поэтому важен размер групп. Если есть только проценты, вы не знаете, насколько надёжны оценки и одинаковы ли объёмы. Обычно нужно получить абсолютные частоты или восстановить их из размеров групп. Подстановка процентов вместо частот ломает математику теста и может дать произвольный результат.

Question 5

После значимого результата `chi-square` теста вы хотите понять, какие именно категории дали вклад в отклонение от независимости. Что для этого использовать?

Accepted Answer

Чтобы понять, какие ячейки «ломают» независимость, смотрят `standardized residuals` или вклад каждой ячейки в статистику `chi-square`. Значимый `chi-square` говорит, что где-то в таблице есть отклонения от ожидаемых частот, но не показывает где именно. `Standardized residuals` помогают увидеть, какие комбинации категорий дают основной вклад. Типичная ошибка — делать вывод про конкретный сегмент, глядя только на общий `p-value` без анализа отдельных ячеек.

Хи-квадрат и таблицы сопряжённости: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика