Парадокс Берксона простыми словами

Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.

Зачем это знать

«Чем красивее ресторан, тем хуже кухня» — классический пример парадокса Берксона. В популяции ресторанов корреляция может быть нулевой, но среди успешных (которые выжили) — negative. Понимать это критично для аналитиков.

В product / growth аналитике Berkson объясняет, почему «survey bias», «power users paradox» и много других эффектов выглядят странно.

Короткое объяснение

Berkson paradox: если вы смотрите на данные, отобранные по нескольким критериям, независимые переменные могут показывать ложную корреляцию.

Пример: в выборке «знаменитых людей» (те, кто либо очень талантлив, либо очень красив) талант и красота отрицательно коррелируют — хотя в общей популяции независимы.

Логика

Известные = талантливые ИЛИ красивые.

Если кто-то знаменит:

  • И не красив → точно талантлив
  • И не талантлив → точно красив

В итоге negative correlation в выборке, хотя оригинально correlation = 0.

Пример в product analytics

Power users могут быть: long tenure ИЛИ high-value (премиум).

В выборке power users: long tenure ↔ high-value обратно коррелируют.

«Старые пользователи менее платящие» — ложь для общей популяции, правда для power users.

Пример в HR

Talent + дипломированность отбирают в крупные корпорации.

В выборке employees: диплом ↔ талант отрицательно коррелируют.

«Умные без диплома» часто видятся в Google — artefact selection, не insight.

Визуально

Plot talent vs beauty в общей популяции: random cloud.

Plot то же для «знаменитых»: left-bottom пустой, видна negative correlation.

Как отличить от real correlation

1. Подумайте о selection

Как данные попали в выборку? Если по нескольким критериям — подозрение.

2. Unrestricted sample

Если возможно — посмотрите на unrestricted. Если correlation пропала — Berkson.

3. Causal diagram

Нарисуйте DAG: если обе переменные causes одной переменной (outcome selection) — Berkson.

Collider bias

Berkson — частный случай collider bias: когда контролируем (через selection) на переменную, являющуюся common effect двух independent causes.

Не нужно контролировать colliders в regression — это создаёт spurious correlations.

В SQL / дашбордах

Premium users

Если вы анализируете только премиум пользователей — selection на premium. Корреляции среди них могут быть misleading.

Активные пользователи

Dashboard «active users» отбирает на retention. Correlations tenure × spending могут быть spurious.

Реальные кейсы

Hospital admission (из статьи Berkson)

Берксон (1946): люди в госпитале имеют больше болезней, потому что попадают туда из-за хотя бы одной. Correlation между болезнями А и В в госпитале negative — paradox.

Startup success

Если смотрите только на successful startups → «technical founder vs business founder» может показывать отрицательную correlation, которой нет в общей популяции.

Marketing

Retained users (survived churn) → corr(first_purchase_value, retention) может быть negative — они все retained, но те с low first purchase должны были retain по другой причине.

Fix

Random sampling

Если возможно — sample из всей популяции, не из отобранной.

Inverse probability weighting

Взвесить users обратно пропорционально selection probability.

Heckman correction

Формальный метод для selection bias.

DAG analysis

Идентифицировать colliders явно.

На собесе

«Что такое Berkson?» Spurious correlation в отобранной выборке из-за selection.

«Связь с collider bias?» Это частный случай.

«Как распознать?» Анализ, как данные попали в выборку.

«Пример в продукте?» Power users, premium users, retained users — любая выборка по нескольким критериям.

Частые ошибки

Смешать Berkson и Simpson

Simpson — разный тренд в подгруппах. Berkson — ложная correlation в отобранной выборке.

Контролировать collider

Случайно добавить collider в regression → создать spurious correlation.

Игнорировать selection

Если выборка — не из всей популяции, ВСЁ анализируется через призму selection.

Связанные темы

FAQ

Только в observational data?

Да. Random sample — нет Berkson.

В dashboards встречается?

Постоянно. Фильтры на active / paying users — selection.

Как сильно влияет?

Зависит от strength selection. Если selection на оба X и Y — эффект сильный.


Тренируйте статистику — откройте тренажёр с 1500+ вопросами для собесов.