Вопросы по теме «Хи-квадрат и таблицы сопряжённости»
Хи-квадрат тест проверяет связь между категориальными переменными — например, зависит ли конверсия от источника трафика. На собеседовании просят построить таблицу сопряжённости, посчитать ожидаемые частоты и интерпретировать результат теста. Это один из немногих статистических тестов, который спрашивают не в контексте A/B.
Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.
Вопросы 1–5 из 20
1В каком случае выводы `chi-square` теста независимости стоит интерпретировать с осторожностью?
AКогда выборка большая и много наблюдений
BКогда в таблице есть несколько ячеек с малыми ожидаемыми частотами
CКогда признаки выглядят независимыми визуально
DКогда таблица сопряжённости имеет размер 2×2
Ответ: Если `ожидаемые частоты` слишком маленькие, приближение `chi-square` работает хуже.
χ²-приближение предполагает, что ожидаемых наблюдений в ячейках достаточно много. Когда ожидаемые частоты малы, `p-value` может быть ненадёжным. В таких случаях часто объединяют редкие категории или используют альтернативу, например `Fisher's exact test` для 2×2.
2В `chi-square` тесте независимости вы получили `p-value` меньше выбранного порога (например, 0.03 при 0.05). Какой вывод корректнее всего?
AЕсть основания отвергнуть `H0` о `независимость категорий` и считать, что признаки связаны
B`p-value` — это вероятность того, что `H0` истинна
CЭто гарантирует большой практический эффект
DЭто доказывает причинно-следственную связь между признаками
Ответ: Малый `p-value` означает, что данные плохо согласуются с `H0` о `независимость категорий`.
При малом `p-value` вы отвергаете `H0` и говорите, что есть статистические признаки зависимости между категориями. Это не говорит, насколько большой эффект и насколько он важен. Типичная ошибка — читать `p-value` как вероятность истинности `H0`.
3Какой смысл у `H0` в `chi-square` тесте независимости для таблицы сопряжённости?
A`H0`: средние значения в группах равны
B`H0`: данные распределены нормально
C`H0`: выполняется независимость категорий между признаками
D`H0`: `treatment` лучше `control`
Ответ: В `chi-square` тесте независимости `H0` формулируется как `независимость категорий`.
Тест проверяет, согласуются ли наблюдаемые частоты с тем, что признаки не связаны. При `H0` распределение одного признака одинаково для всех категорий другого. Частая ошибка — считать, что тест доказывает причинность, хотя он проверяет только ассоциацию.
4Вы строите таблицу сопряжённости по событиям кликов, но один пользователь может сделать десятки кликов. Почему это может быть проблемой для `chi-square` теста независимости?
AПотому что `chi-square` работает только для данных по пользователям, а не по событиям
BПотому что клики нельзя считать, их нужно усреднять
CПотому что нарушается предпосылка независимых наблюдений, и `p-value` может стать искусственно маленьким
DПотому что `ожидаемые частоты` всегда должны быть ровно одинаковыми
Ответ: `chi-square` предполагает независимые наблюдения, поэтому важно выбрать правильную единицу анализа.
Если один пользователь даёт много событий, строки в таблице сопряжённости перестают быть независимыми. Тогда `p-value` может стать слишком маленьким, потому что вы завышаете эффективный размер выборки. Частое решение — агрегировать до уровня пользователя или сессии и уже потом строить таблицу.
5Что в тесте независимости интуитивно измеряет статистика `chi-square`?
AСреднюю разницу процентов между строками
BКорреляцию между категориями
CРазницу между медианами по столбцам
DНасколько observed counts отклоняются от ожидаемых частот при `H0` по всей таблице сопряжённости
Ответ: Статистика `chi-square` измеряет, насколько observed counts отклоняются от ожидаемых частот при `H0`.
Тест сравнивает фактическую таблицу сопряжённости с той, которая ожидалась бы при независимости категорий. Чем сильнее и систематичнее отклонения, тем больше значение `chi-square` и тем меньше `p-value`. Ошибка — думать, что тест смотрит только на одну ячейку, хотя он агрегирует отклонения по всей таблице.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram