Парадокс Берксона простыми словами

Проверь себя · 1/3разбор после ответа
В таблице users поле phone бывает NULL и бывает пустой строкой. Какое утверждение верное?

Зачем это знать

«Чем красивее ресторан, тем хуже кухня» — классический пример парадокса Берксона. В популяции ресторанов корреляция может быть нулевой, но среди успешных (которые выжили) — отрицательная. Понимать это критично для аналитиков.

В продуктовой/growth-аналитике Берксон объясняет, почему «предвзятость опроса», «парадокс power users» и ещё куча эффектов выглядят странно.

Короткое объяснение

Парадокс Берксона: если вы смотрите на данные, отобранные по нескольким критериям, независимые переменные могут показывать ложную корреляцию.

Пример: в выборке «знаменитых людей» (те, кто либо очень талантлив, либо очень красив) талант и красота отрицательно коррелируют — хотя в общей популяции независимы.

Логика

Знаменитые = талантливые ИЛИ красивые.

Если кто-то знаменит:

  • И не красив → точно талантлив
  • И не талантлив → точно красив

В итоге в выборке видно отрицательную корреляцию, хотя исходно корреляция = 0.

Пример в продуктовой аналитике

Power users могут быть: давно с продуктом ИЛИ много платят (премиум).

В выборке power users: стаж ↔ платежи обратно коррелируют.

«Старые пользователи меньше платят» — ложь для общей популяции, правда для power users.

Пример в HR

Талант + наличие диплома отбирают в крупные корпорации.

В выборке сотрудников: диплом ↔ талант отрицательно коррелируют.

«Умные без диплома» часто видятся в Google — артефакт отбора, не инсайт.

Визуально

Нарисуйте график «талант vs красота» в общей популяции — случайное облако.

Тот же график для «знаменитых»: левый нижний угол пустой, видна отрицательная корреляция.

Как отличить от настоящей корреляции

1. Подумайте об отборе

Как данные попали в выборку? Если по нескольким критериям — подозрение.

2. Неотфильтрованная выборка

Если возможно — посмотрите на полную популяцию. Если корреляция пропала — это Берксон.

3. Причинная диаграмма

Нарисуйте DAG: если обе переменные — причины одной переменной (через которую идёт отбор), это Берксон.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Collider bias

Берксон — частный случай collider bias (смещения коллайдера): когда контролируем (через отбор) переменную, являющуюся общим следствием двух независимых причин.

Не нужно контролировать коллайдеры в регрессии — это создаёт ложные корреляции.

В SQL / дашбордах

Премиум-пользователи

Если анализируете только премиум — отбор по факту премиума. Корреляции среди них могут вводить в заблуждение.

Активные пользователи

Дашборд «active users» отбирает по retention. Корреляции «стаж × траты» могут быть ложными.

Реальные кейсы

Госпитализация (из статьи Берксона 1946)

Берксон: люди в госпитале имеют больше болезней, потому что попадают туда из-за хотя бы одной. Корреляция между болезнями A и B в госпитале отрицательная — парадокс.

Успех стартапов

Если смотрите только на успешные стартапы → «технический фаундер vs бизнес-фаундер» может показывать отрицательную корреляцию, которой нет в общей популяции.

Маркетинг

Удержавшиеся пользователи (пережили churn) → корреляция «размер первого заказа × retention» может быть отрицательной — они все удержались, но те с маленьким первым чеком удержались по другой причине.

Как исправить

Случайная выборка

Если возможно — выборка из всей популяции, не из отобранной.

Обратное взвешивание по вероятности отбора

Взвесить пользователей обратно пропорционально вероятности попасть в выборку.

Коррекция Хекмана

Формальный метод для selection bias.

Анализ DAG

Явно идентифицировать коллайдеры.

На собесе

«Что такое Берксон?» Ложная корреляция в отобранной выборке из-за отбора.

«Связь с collider bias?» Это частный случай.

«Как распознать?» Анализ, как данные попали в выборку.

«Пример в продукте?» Power users, премиум-пользователи, удержавшиеся пользователи — любая выборка по нескольким критериям.

Частые ошибки

Смешать Берксон и Simpson

Simpson — разный тренд в подгруппах. Берксон — ложная корреляция в отобранной выборке.

Контролировать коллайдер

Случайно добавить коллайдер в регрессию → создать ложную корреляцию.

Игнорировать отбор

Если выборка не из всей популяции — любой вывод нужно проверять через призму отбора.

Делать выводы только по продукту

Корреляция у «топ-10% по выручке» — артефакт отбора по выручке. Нужно расширять выборку.

Связанные темы

FAQ

Только в наблюдательных данных?

Да. В случайной выборке Берксона нет.

В дашбордах встречается?

Постоянно. Фильтры на активных / платящих пользователей — это отбор.

Как сильно влияет?

Зависит от силы отбора. Если отбор идёт и по X, и по Y — эффект сильный.