Question 1

У вас датасет с полями `user_id`, тип устройства (iOS/Android) и признак конверсии (да/нет). Какую таблицу сопряжённости вы построите перед тестом независимости (`chi-square`)?

Accepted Answer

Для `chi-square` нужна таблица сопряжённости с абсолютными счетчиками по двум категориальным признакам. В таблице сопряжённости строки и столбцы — категории двух признаков, а в ячейках — число наблюдений. Для типа устройства и признака конверсии это будет таблица 2×2 с числом пользователей в каждой ячейке. Типичная ошибка — подставлять проценты вместо абсолютных счётчиков и терять информацию о размере групп.

Question 2

В таблице сопряжённости для контрольной и тестовой группы и исхода (купил/не купил) в ячейке (тестовая группа, купил) стоит число 250. Что это означает?

Accepted Answer

Ячейка таблицы сопряжённости хранит количество наблюдений, попавших в обе категории одновременно. В таблице сопряжённости каждое число — это фактическое количество наблюдений с конкретной комбинацией категорий, а не доля и не результат теста. Это значение не является ни `p-value`, ни рассчитанной ожидаемой частотой по нулевой гипотезе. Типичная ошибка — путать абсолютные количества с долями и делать выводы без нормализации внутри группы. Чтобы оценить конверсию в тестовой группе, нужно поделить 250 на общий размер этой группы.

Question 3

В таблице сопряжённости строки — это группы (контроль и тест), а столбцы — купил/не купил. Какие проценты обычно полезнее считать, чтобы сравнить конверсию между группами и сформулировать гипотезу до теста хи-квадрат?

Accepted Answer

Для сравнения конверсии между группами в таблице сопряжённости обычно смотрят доли внутри строк. Если строки — это группы (контроль и тест), долю покупки разумно считать внутри каждой строки: тогда мы напрямую сравниваем вероятность исхода в каждой группе. Проценты от общего итога таблицы могут скрывать разницу, если группы разного размера. Проценты внутри столбцов отвечают на другой вопрос — как распределены группы среди купивших, а не как различаются конверсии между группами. Произведение долей по строкам и столбцам — это ожидаемые частоты при независимости, а не наблюдённые конверсии.

Question 4

Вы получили очень маленький `p-value` в `chi-square` тесте, но различия долей в таблице сопряжённости выглядят минимальными. Что лучше сделать перед продуктовым решением?

Accepted Answer

Помимо `p-value` полезно оценить величину связи, например через коэффициент `V` Крамера, и абсолютные разницы долей. Хи-квадрат на больших выборках почти всегда даёт маленький `p-value` даже при микроскопических различиях долей: критерий чувствителен к размеру выборки, а не к величине эффекта. Поэтому при малых видимых различиях считают effect size — `V` Крамера, остатки в ячейках или относительные риски — и оценивают практическую значимость. Решать только по `p-value` — путь к фантомным эффектам. Пересчёт по половинам не отвечает на вопрос о размере эффекта. Опираться на одну ячейку — нарушение многомерности теста и шум.

Question 5

Вы нашли значимую связь в таблице сопряжённости между каналом привлечения и покупкой с помощью `chi-square`. Можно ли сделать вывод, что канал вызывает покупку?

Accepted Answer

`chi-square` в таблице сопряжённости показывает ассоциацию категорий, а не причинность. Даже если `p-value` мал, это означает лишь несовместимость данных с гипотезой о независимости категорий. Причина может быть в скрытом факторе: например, разные каналы приводят разную аудиторию. Чтобы говорить о причинности, нужен экспериментальный дизайн с рандомизацией контроля и тритмента или иной способ контроля смешивающих переменных.

Хи-квадрат и таблицы сопряжённости: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика