Парадокс Берксона простыми словами
users поле phone бывает NULL и бывает пустой строкой. Какое утверждение верное?Содержание:
Зачем это знать
«Чем красивее ресторан, тем хуже кухня» — классический пример парадокса Берксона. В популяции ресторанов корреляция может быть нулевой, но среди успешных (которые выжили) — отрицательная. Понимать это критично для аналитиков.
В продуктовой/growth-аналитике Берксон объясняет, почему «предвзятость опроса», «парадокс power users» и ещё куча эффектов выглядят странно.
Короткое объяснение
Парадокс Берксона: если вы смотрите на данные, отобранные по нескольким критериям, независимые переменные могут показывать ложную корреляцию.
Пример: в выборке «знаменитых людей» (те, кто либо очень талантлив, либо очень красив) талант и красота отрицательно коррелируют — хотя в общей популяции независимы.
Логика
Знаменитые = талантливые ИЛИ красивые.
Если кто-то знаменит:
- И не красив → точно талантлив
- И не талантлив → точно красив
В итоге в выборке видно отрицательную корреляцию, хотя исходно корреляция = 0.
Пример в продуктовой аналитике
Power users могут быть: давно с продуктом ИЛИ много платят (премиум).
В выборке power users: стаж ↔ платежи обратно коррелируют.
«Старые пользователи меньше платят» — ложь для общей популяции, правда для power users.
Пример в HR
Талант + наличие диплома отбирают в крупные корпорации.
В выборке сотрудников: диплом ↔ талант отрицательно коррелируют.
«Умные без диплома» часто видятся в Google — артефакт отбора, не инсайт.
Визуально
Нарисуйте график «талант vs красота» в общей популяции — случайное облако.
Тот же график для «знаменитых»: левый нижний угол пустой, видна отрицательная корреляция.
Как отличить от настоящей корреляции
1. Подумайте об отборе
Как данные попали в выборку? Если по нескольким критериям — подозрение.
2. Неотфильтрованная выборка
Если возможно — посмотрите на полную популяцию. Если корреляция пропала — это Берксон.
3. Причинная диаграмма
Нарисуйте DAG: если обе переменные — причины одной переменной (через которую идёт отбор), это Берксон.
Collider bias
Берксон — частный случай collider bias (смещения коллайдера): когда контролируем (через отбор) переменную, являющуюся общим следствием двух независимых причин.
Не нужно контролировать коллайдеры в регрессии — это создаёт ложные корреляции.
В SQL / дашбордах
Премиум-пользователи
Если анализируете только премиум — отбор по факту премиума. Корреляции среди них могут вводить в заблуждение.
Активные пользователи
Дашборд «active users» отбирает по retention. Корреляции «стаж × траты» могут быть ложными.
Реальные кейсы
Госпитализация (из статьи Берксона 1946)
Берксон: люди в госпитале имеют больше болезней, потому что попадают туда из-за хотя бы одной. Корреляция между болезнями A и B в госпитале отрицательная — парадокс.
Успех стартапов
Если смотрите только на успешные стартапы → «технический фаундер vs бизнес-фаундер» может показывать отрицательную корреляцию, которой нет в общей популяции.
Маркетинг
Удержавшиеся пользователи (пережили churn) → корреляция «размер первого заказа × retention» может быть отрицательной — они все удержались, но те с маленьким первым чеком удержались по другой причине.
Как исправить
Случайная выборка
Если возможно — выборка из всей популяции, не из отобранной.
Обратное взвешивание по вероятности отбора
Взвесить пользователей обратно пропорционально вероятности попасть в выборку.
Коррекция Хекмана
Формальный метод для selection bias.
Анализ DAG
Явно идентифицировать коллайдеры.
На собесе
«Что такое Берксон?» Ложная корреляция в отобранной выборке из-за отбора.
«Связь с collider bias?» Это частный случай.
«Как распознать?» Анализ, как данные попали в выборку.
«Пример в продукте?» Power users, премиум-пользователи, удержавшиеся пользователи — любая выборка по нескольким критериям.
Частые ошибки
Смешать Берксон и Simpson
Simpson — разный тренд в подгруппах. Берксон — ложная корреляция в отобранной выборке.
Контролировать коллайдер
Случайно добавить коллайдер в регрессию → создать ложную корреляцию.
Игнорировать отбор
Если выборка не из всей популяции — любой вывод нужно проверять через призму отбора.
Делать выводы только по продукту
Корреляция у «топ-10% по выручке» — артефакт отбора по выручке. Нужно расширять выборку.
Связанные темы
FAQ
Только в наблюдательных данных?
Да. В случайной выборке Берксона нет.
В дашбордах встречается?
Постоянно. Фильтры на активных / платящих пользователей — это отбор.
Как сильно влияет?
Зависит от силы отбора. Если отбор идёт и по X, и по Y — эффект сильный.