Selection bias простыми словами

Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.

Короткое объяснение

Selection bias (ошибка отбора) — когда способ включения объектов в анализ искажает результаты.

Общий термин — включает sampling bias, survivorship bias, self-selection bias и другие.

Пример

Хотите узнать, как новая фича влияет на retention.

Смотрите только на тех, кто использовал фичу vs тех, кто нет.

Ошибка: пользователи, использовавшие фичу, — это активные engaged users. Они и так бы retention-ились лучше. Фича тут ни при чём.

Виды selection bias

1. Self-selection bias

Пользователь сам решает участвовать.

Пример: opt-in beta-фича. Ранние пользователи — энтузиасты. Результат для них ≠ для всех.

2. Non-response bias

Часть выборки не отвечает. Они отличаются от тех, кто отвечает.

Пример: опрос с 10% response. Остальные 90% — кто?

3. Survivorship bias

Только «выжившие».

Пример: retention computed только по активным → завышенный.

4. Attrition bias

В longitudinal study участники уходят со временем. Оставшиеся ≠ первоначальная выборка.

5. Allocation bias

В A/B — неслучайное распределение по группам.

Пример: первые 100 → в test. Следующие 100 → в control. Но первые могут быть «ранние» пользователи = отличаются.

6. Berkson's paradox

Отбор по признаку, коррелированному с обеими переменными → ложная корреляция.

Примеры в продуктовой аналитике

1. Эффект обучающего видео

Пользователи, посмотревшие tutorial, имеют лучший retention. Significantly?

Selection bias: те, кто посмотрел, — уже мотивированные. Tutorial ≠ cause.

Правильный анализ: A/B-тест с принудительным показом.

2. Power users дают feedback

Спрашиваем довольных → получаем позитив. Новые / недовольные молчат.

3. Analytics только залогиненных

Веб-аналитика counting только logged-in users. Анонимные (часто новые) не учтены.

4. Ретроспективный анализ

«У нас это работало» — но часть сигнала — selection. Не все переменные controlled.

Как обнаружить

1. Compare sample vs population

Сравнить характеристики выборки с known population. Если отличается — подозрение.

2. Смотреть на non-inclusion

«Кого нет в моей выборке?» Это ключевой вопрос.

3. Sanity check

Если результат «слишком хороший» — подозрение на bias.

4. A/A-тест

Если randomization корректна, A/A даст p<0.05 в 5% случаев. Иначе — bias в аллокации.

Как избежать

1. Randomization

A/B с правильной случайной аллокацией решает большинство проблем.

2. Weighted analysis

Дать меньший вес over-represented сегментам.

3. Include non-respondents

В опросах — try to reach non-respondents separately и сравнить.

4. Full cohort analysis

Смотреть на всю cohort (включая ушедших), не только активных.

5. Causal inference методы

Propensity score matching, instrumental variables, difference-in-differences.

Berkson's paradox (важная интуиция)

Если отбор идёт по критерию A + B, может появиться ложная отрицательная корреляция между A и B.

Пример: medical research. Пациенты в больнице имеют болезнь A или B. Если берём только тех, кто в больнице, → может показаться, что A и B отрицательно связаны.

Но на самом деле они могут быть независимы. Искажение из-за отбора.

В A/B-тестах

A/B-тесты robust к selection bias, если:

  • Аллокация случайная
  • Все попавшие в группу анализируются (не только дошедшие до конца — это survivorship)
  • SRM нет

Но могут страдать от:

  • Opt-in tests
  • Non-compliance (показали фичу, не увидели)
  • Attrition во время теста

На собесе

«Что такое selection bias?» Ошибка из-за смещённого отбора объектов в анализ.

«Пример в продукте?» Анализ retention только активных пользователей. Ушедшие (где bias) не учтены.

«Как избежать?» Randomization, правильный sampling, учёт non-respondents.

«A/B-тест спасает от selection bias?» Да, при правильной аллокации. Но не от non-compliance / attrition.

Частые ошибки

1. Analyzing only treated

В A/B анализ только кого-то из групп → bias.

2. Survivorship в cohort

Только активные в cohort → retention завышен.

3. Voluntary response

Отзывы, опросы opt-in — systematic bias.

4. Retrospective comparison

«До vs после» без контроля → selection.

5. Inferring causation

Observed correlation на biased выборке ≠ causation.

Связанные темы

FAQ

Selection bias = sampling bias?

Selection — шире. Sampling — частный случай (связанный с выборкой).

Как bias влияет на заключения?

Систематически смещает. Даже на большой выборке bias не исчезает.

Randomization спасает?

В экспериментах — да. В observational studies — нет.

Можно ли «исправить» biased данные?

Частично (weights, imputation). Но лучше правильный design изначально.


Тренируйте статистику — откройте тренажёр с 1500+ вопросами для собесов.