Парадокс Берксона простыми словами
Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.
Зачем это знать
«Чем красивее ресторан, тем хуже кухня» — классический пример парадокса Берксона. В популяции ресторанов корреляция может быть нулевой, но среди успешных (которые выжили) — negative. Понимать это критично для аналитиков.
В product / growth аналитике Berkson объясняет, почему «survey bias», «power users paradox» и много других эффектов выглядят странно.
Короткое объяснение
Berkson paradox: если вы смотрите на данные, отобранные по нескольким критериям, независимые переменные могут показывать ложную корреляцию.
Пример: в выборке «знаменитых людей» (те, кто либо очень талантлив, либо очень красив) талант и красота отрицательно коррелируют — хотя в общей популяции независимы.
Логика
Известные = талантливые ИЛИ красивые.
Если кто-то знаменит:
- И не красив → точно талантлив
- И не талантлив → точно красив
В итоге negative correlation в выборке, хотя оригинально correlation = 0.
Пример в product analytics
Power users могут быть: long tenure ИЛИ high-value (премиум).
В выборке power users: long tenure ↔ high-value обратно коррелируют.
«Старые пользователи менее платящие» — ложь для общей популяции, правда для power users.
Пример в HR
Talent + дипломированность отбирают в крупные корпорации.
В выборке employees: диплом ↔ талант отрицательно коррелируют.
«Умные без диплома» часто видятся в Google — artefact selection, не insight.
Визуально
Plot talent vs beauty в общей популяции: random cloud.
Plot то же для «знаменитых»: left-bottom пустой, видна negative correlation.
Как отличить от real correlation
1. Подумайте о selection
Как данные попали в выборку? Если по нескольким критериям — подозрение.
2. Unrestricted sample
Если возможно — посмотрите на unrestricted. Если correlation пропала — Berkson.
3. Causal diagram
Нарисуйте DAG: если обе переменные causes одной переменной (outcome selection) — Berkson.
Collider bias
Berkson — частный случай collider bias: когда контролируем (через selection) на переменную, являющуюся common effect двух independent causes.
Не нужно контролировать colliders в regression — это создаёт spurious correlations.
В SQL / дашбордах
Premium users
Если вы анализируете только премиум пользователей — selection на premium. Корреляции среди них могут быть misleading.
Активные пользователи
Dashboard «active users» отбирает на retention. Correlations tenure × spending могут быть spurious.
Реальные кейсы
Hospital admission (из статьи Berkson)
Берксон (1946): люди в госпитале имеют больше болезней, потому что попадают туда из-за хотя бы одной. Correlation между болезнями А и В в госпитале negative — paradox.
Startup success
Если смотрите только на successful startups → «technical founder vs business founder» может показывать отрицательную correlation, которой нет в общей популяции.
Marketing
Retained users (survived churn) → corr(first_purchase_value, retention) может быть negative — они все retained, но те с low first purchase должны были retain по другой причине.
Fix
Random sampling
Если возможно — sample из всей популяции, не из отобранной.
Inverse probability weighting
Взвесить users обратно пропорционально selection probability.
Heckman correction
Формальный метод для selection bias.
DAG analysis
Идентифицировать colliders явно.
На собесе
«Что такое Berkson?» Spurious correlation в отобранной выборке из-за selection.
«Связь с collider bias?» Это частный случай.
«Как распознать?» Анализ, как данные попали в выборку.
«Пример в продукте?» Power users, premium users, retained users — любая выборка по нескольким критериям.
Частые ошибки
Смешать Berkson и Simpson
Simpson — разный тренд в подгруппах. Berkson — ложная correlation в отобранной выборке.
Контролировать collider
Случайно добавить collider в regression → создать spurious correlation.
Игнорировать selection
Если выборка — не из всей популяции, ВСЁ анализируется через призму selection.
Связанные темы
FAQ
Только в observational data?
Да. Random sample — нет Berkson.
В dashboards встречается?
Постоянно. Фильтры на active / paying users — selection.
Как сильно влияет?
Зависит от strength selection. Если selection на оба X и Y — эффект сильный.
Тренируйте статистику — откройте тренажёр с 1500+ вопросами для собесов.