Хи-квадрат и таблицы сопряжённости: вопросы для собеседования (часть 3)
Хи-квадрат тест проверяет связь между категориальными переменными — например, зависит ли конверсия от источника трафика. На собеседовании просят построить таблицу сопряжённости, посчитать ожидаемые частоты и интерпретировать результат теста. Это один из немногих статистических тестов, который спрашивают не в контексте A/B.
Вопросы 11–15 из 20
11В таблице сопряжённости есть ячейка с observed count равным 0 (например, в одном сегменте никто не купил). Что важнее всего проверить перед выводами по `chi-square`?
AСразу удалить этот сегмент из данных
BВсегда заменять нули на 1, чтобы тест работал
CПосмотреть ожидаемые частоты: если они малы, тест может быть ненадёжным; если нет — ноль допустим
DСчитать `p-value` недействительным при любом нуле
Ответ: Ноль в наблюдаемой ячейке сам по себе не запрет, важны `ожидаемые частоты`.
Если ожидаемые частоты в ячейке тоже малы, приближение `chi-square` может работать хуже. Если же ожидаемое значение достаточно велико, наблюдаемый ноль — это сильное отклонение и может дать большой вклад в статистику. Типичная ошибка — автоматически «лечить» нули без проверки ожиданий.
12Если в таблице сопряжённости поменять местами строки и столбцы, изменится ли результат `chi-square` теста независимости (значение `chi-square`, `df`, `p-value`)?
AНет, результат не изменится, потому что тест симметричен к перестановке строк/столбцов
BДа, `p-value` всегда меняется, потому что меняется направление сравнения
CДа, но только если есть ячейки с нулём
DДа, потому что ожидаемые частоты пересчитываются иначе
Ответ: Для теста независимости `chi-square` не важно, что вы назвали строкой или столбцом в `таблица сопряженности`.
Если поменять местами строки и столбцы, набор ожидаемых частот и отклонений по ячейкам остаётся тем же по сути. Поэтому статистика `chi-square`, `df` и `p-value` не меняются. Типичная ошибка — ожидать разные ответы из-за ориентации таблицы.
13У вас 12 регионов, и несколько регионов дают очень малые counts, из-за чего появляются маленькие `ожидаемые частоты`. Какой шаг чаще всего помогает перед применением `chi-square`?
AОбъединить редкие регионы в одну категорию (например, other), чтобы увеличить ожидаемые частоты
BДобавить в таблицу ещё больше редких категорий, чтобы она была детальнее
CЗаменить задачу на сравнение средних через `t-test`
DИгнорировать проблему: `chi-square` всегда работает при любых counts
Ответ: Увеличить ожидаемые частоты можно через укрупнение редких категорий перед `chi-square`.
Редкие уровни дают много ячеек с малыми ожидаемыми частотами, и тест становится нестабильным. Практичный шаг — объединить редкие категории в одну, чтобы в каждой категории был разумный объём. После этого строят новую таблицу сопряжённости и повторяют проверку.
14У вас есть только проценты конверсии по группам, но нет абсолютных размеров групп. Можно ли корректно провести `chi-square` тест независимости?
AДа, `chi-square` использует только проценты
BДа, можно округлить проценты до целых и тест будет корректным
CНет, нужна `таблица сопряженности` с observed counts (или возможность восстановить counts)
DНет, потому что `chi-square` подходит только для непрерывных метрик
Ответ: Для `chi-square` нужен вход в виде counts в таблице сопряжённости, а не только проценты.
Статистика `chi-square` сравнивает observed counts с ожидаемыми частотами, поэтому важен размер групп. Если есть только проценты, вы не знаете, насколько надёжны оценки и одинаковы ли объёмы. Обычно нужно получить counts или восстановить их из размеров групп.
15После значимого результата `chi-square` теста вы хотите понять, какие именно категории дали вклад в отклонение от независимости категорий. Что для этого использовать?
AТолько общий `p-value`, потому что он уже всё объясняет
BСравнение средних значений по строкам
CСравнение медиан по столбцам
D`standardized residuals` или вклад каждой ячейки в статистику `chi-square`
Ответ: Чтобы понять, какие ячейки «ломают» `независимость категорий`, смотрят `standardized residuals`.
Значимый `chi-square` говорит, что где-то в таблице есть отклонения от ожидаемых частот, но не показывает где именно. `standardized residuals` помогают увидеть, какие комбинации категорий дают основной вклад. Типичная ошибка — делать вывод про конкретный сегмент, глядя только на общий `p-value`.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram