Вопросы по теме «Хи-квадрат и таблицы сопряжённости»

Хи-квадрат тест проверяет связь между категориальными переменными — например, зависит ли конверсия от источника трафика. На собеседовании просят построить таблицу сопряжённости, посчитать ожидаемые частоты и интерпретировать результат теста. Это один из немногих статистических тестов, который спрашивают не в контексте A/B.

Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.

Доверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 15 из 20

1В каком случае выводы `chi-square` теста независимости стоит интерпретировать с осторожностью?
AКогда выборка большая и много наблюдений
BКогда в таблице есть несколько ячеек с малыми ожидаемыми частотами
CКогда признаки выглядят независимыми визуально
DКогда таблица сопряжённости имеет размер 2×2
Ответ: Если `ожидаемые частоты` слишком маленькие, приближение `chi-square` работает хуже.

χ²-приближение предполагает, что ожидаемых наблюдений в ячейках достаточно много. Когда ожидаемые частоты малы, `p-value` может быть ненадёжным. В таких случаях часто объединяют редкие категории или используют альтернативу, например `Fisher's exact test` для 2×2.

2В `chi-square` тесте независимости вы получили `p-value` меньше выбранного порога (например, 0.03 при 0.05). Какой вывод корректнее всего?
AЕсть основания отвергнуть `H0` о `независимость категорий` и считать, что признаки связаны
B`p-value` — это вероятность того, что `H0` истинна
CЭто гарантирует большой практический эффект
DЭто доказывает причинно-следственную связь между признаками
Ответ: Малый `p-value` означает, что данные плохо согласуются с `H0` о `независимость категорий`.

При малом `p-value` вы отвергаете `H0` и говорите, что есть статистические признаки зависимости между категориями. Это не говорит, насколько большой эффект и насколько он важен. Типичная ошибка — читать `p-value` как вероятность истинности `H0`.

3Какой смысл у `H0` в `chi-square` тесте независимости для таблицы сопряжённости?
A`H0`: средние значения в группах равны
B`H0`: данные распределены нормально
C`H0`: выполняется независимость категорий между признаками
D`H0`: `treatment` лучше `control`
Ответ: В `chi-square` тесте независимости `H0` формулируется как `независимость категорий`.

Тест проверяет, согласуются ли наблюдаемые частоты с тем, что признаки не связаны. При `H0` распределение одного признака одинаково для всех категорий другого. Частая ошибка — считать, что тест доказывает причинность, хотя он проверяет только ассоциацию.

4Вы строите таблицу сопряжённости по событиям кликов, но один пользователь может сделать десятки кликов. Почему это может быть проблемой для `chi-square` теста независимости?
AПотому что `chi-square` работает только для данных по пользователям, а не по событиям
BПотому что клики нельзя считать, их нужно усреднять
CПотому что нарушается предпосылка независимых наблюдений, и `p-value` может стать искусственно маленьким
DПотому что `ожидаемые частоты` всегда должны быть ровно одинаковыми
Ответ: `chi-square` предполагает независимые наблюдения, поэтому важно выбрать правильную единицу анализа.

Если один пользователь даёт много событий, строки в таблице сопряжённости перестают быть независимыми. Тогда `p-value` может стать слишком маленьким, потому что вы завышаете эффективный размер выборки. Частое решение — агрегировать до уровня пользователя или сессии и уже потом строить таблицу.

5Что в тесте независимости интуитивно измеряет статистика `chi-square`?
AСреднюю разницу процентов между строками
BКорреляцию между категориями
CРазницу между медианами по столбцам
DНасколько observed counts отклоняются от ожидаемых частот при `H0` по всей таблице сопряжённости
Ответ: Статистика `chi-square` измеряет, насколько observed counts отклоняются от ожидаемых частот при `H0`.

Тест сравнивает фактическую таблицу сопряжённости с той, которая ожидалась бы при независимости категорий. Чем сильнее и систематичнее отклонения, тем больше значение `chi-square` и тем меньше `p-value`. Ошибка — думать, что тест смотрит только на одну ячейку, хотя он агрегирует отклонения по всей таблице.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Доверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей