Хи-квадрат и таблицы сопряжённости: вопросы для собеседования (часть 4)
Хи-квадрат тест проверяет связь между категориальными переменными — например, зависит ли конверсия от источника трафика. На собеседовании просят построить таблицу сопряжённости, посчитать ожидаемые частоты и интерпретировать результат теста. Это один из немногих статистических тестов, который спрашивают не в контексте A/B.
Вопросы 16–20 из 20
16Как по таблице сопряжённости считается ожидаемое значение (ячейка) при `H0` о независимости категорий в `chi-square` тесте?
A`E = observed / grand_total`
B`E = row_total - col_total`
C`E = grand_total / (row_total + col_total)`
D`E = row_total * col_total / grand_total`
Ответ: Ожидаемые частоты при `H0` считаются из маргинальных сумм: `E = row_total * col_total / grand_total`.
Если `H0` — независимость категорий, то доля столбца должна быть одинаковой в каждой строке. Поэтому ожидаемая частота в ячейке равна произведению суммы строки и суммы столбца, делённому на общий итог. Частая ошибка — сравнивать только проценты, не проверяя, что базовые объёмы сопоставимы.
17В `chi-square` тесте независимости вы получили большой `p-value` (например, 0.4). Какой вывод наиболее корректен?
AКатегории точно независимы, можно забыть про анализ
BЭто означает, что данные плохого качества и их нужно выбросить
CЭффект точно равен нулю, и он не может появиться при большем объёме данных
DНет оснований отвергнуть `H0` о независимости категорий, но это не доказательство независимости
Ответ: Большой `p-value` значит, что нет оснований отвергнуть `H0`, но это не доказательство независимости категорий.
Если `p-value` велик, данные совместимы с `H0` о независимости категорий на выбранном уровне значимости. Это не означает, что связь отсутствует: эффект может быть маленьким или данных может быть недостаточно. Типичная ошибка — писать «категории независимы», вместо «не нашли статистических оснований для зависимости».
18В `A/B test` у вас бинарный исход (купил/не купил) и две группы. Какое утверждение наиболее корректно про `chi-square` в этом случае?
AНужен только `t-test`, потому что `chi-square` не работает для конверсии
B`chi-square` на 2×2 `таблица сопряженности` проверяет `независимость категорий`, что эквивалентно проверке равенства долей
C`chi-square` применим только если категорий минимум 3
D`chi-square` оценивает разницу средних чеков между группами
Ответ: Для 2×2 таблицы сопряжённости `chi-square` тест независимости совпадает по смыслу с проверкой равенства долей.
В A/B с бинарной метрикой строят 2×2 таблицу сопряжённости: группа × исход (да/нет). `chi-square` проверяет независимость категорий, то есть вопрос «одинаковы ли доли исхода в группах». Ошибка — считать, что `chi-square` нужен только для больших таблиц.
19Для таблицы сопряжённости 4×3 (4 категории по строкам и 3 по столбцам) чему равны степени свободы `df` в `chi-square` тесте независимости?
A`df = 4*3 = 12`
B`df = (4-1)+(3-1) = 5`
C`df = (4+1)*(3-1) = 10`
D`df = (4-1)*(3-1) = 6`
Ответ: `df` для `chi-square` независимости равны `df = (r-1)*(c-1)` для таблицы r×c.
Степени свободы показывают, сколько независимых ячеек остаётся после учёта сумм строк и столбцов. Для таблицы 4×3 получаем `df = (4-1)*(3-1) = 6`. Ошибка — путать `df` с числом ячеек: ячеек 12, но независимых меньше из-за ограничений по маргиналям.
20Вы измеряете бинарный исход (например, купил/не купил) у тех же пользователей до и после изменения. Какой тест обычно уместнее, чем `chi-square` тест независимости?
A`t-test` для зависимых выборок
B`тест Мак-Немара (McNemar's test)`
C`ANOVA`
D`Mann-Whitney`
Ответ: Для парных бинарных данных лучше использовать `тест Мак-Немара (McNemar's test)`, а не `chi-square` тест независимости.
До/после на тех же пользователях означает зависимые наблюдения, и предпосылка независимости нарушена. `Тест Мак-Немара (McNemar's test)` учитывает парность и использует информацию о смене исхода. Частая ошибка — применять `chi-square` к обычной таблице сопряженности и получать неверный `p-value`.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram