Selection bias простыми словами
Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.
Короткое объяснение
Selection bias (ошибка отбора) — когда способ включения объектов в анализ искажает результаты.
Общий термин — включает sampling bias, survivorship bias, self-selection bias и другие.
Пример
Хотите узнать, как новая фича влияет на retention.
Смотрите только на тех, кто использовал фичу vs тех, кто нет.
Ошибка: пользователи, использовавшие фичу, — это активные engaged users. Они и так бы retention-ились лучше. Фича тут ни при чём.
Виды selection bias
1. Self-selection bias
Пользователь сам решает участвовать.
Пример: opt-in beta-фича. Ранние пользователи — энтузиасты. Результат для них ≠ для всех.
2. Non-response bias
Часть выборки не отвечает. Они отличаются от тех, кто отвечает.
Пример: опрос с 10% response. Остальные 90% — кто?
3. Survivorship bias
Только «выжившие».
Пример: retention computed только по активным → завышенный.
4. Attrition bias
В longitudinal study участники уходят со временем. Оставшиеся ≠ первоначальная выборка.
5. Allocation bias
В A/B — неслучайное распределение по группам.
Пример: первые 100 → в test. Следующие 100 → в control. Но первые могут быть «ранние» пользователи = отличаются.
6. Berkson's paradox
Отбор по признаку, коррелированному с обеими переменными → ложная корреляция.
Примеры в продуктовой аналитике
1. Эффект обучающего видео
Пользователи, посмотревшие tutorial, имеют лучший retention. Significantly?
Selection bias: те, кто посмотрел, — уже мотивированные. Tutorial ≠ cause.
Правильный анализ: A/B-тест с принудительным показом.
2. Power users дают feedback
Спрашиваем довольных → получаем позитив. Новые / недовольные молчат.
3. Analytics только залогиненных
Веб-аналитика counting только logged-in users. Анонимные (часто новые) не учтены.
4. Ретроспективный анализ
«У нас это работало» — но часть сигнала — selection. Не все переменные controlled.
Как обнаружить
1. Compare sample vs population
Сравнить характеристики выборки с known population. Если отличается — подозрение.
2. Смотреть на non-inclusion
«Кого нет в моей выборке?» Это ключевой вопрос.
3. Sanity check
Если результат «слишком хороший» — подозрение на bias.
4. A/A-тест
Если randomization корректна, A/A даст p<0.05 в 5% случаев. Иначе — bias в аллокации.
Как избежать
1. Randomization
A/B с правильной случайной аллокацией решает большинство проблем.
2. Weighted analysis
Дать меньший вес over-represented сегментам.
3. Include non-respondents
В опросах — try to reach non-respondents separately и сравнить.
4. Full cohort analysis
Смотреть на всю cohort (включая ушедших), не только активных.
5. Causal inference методы
Propensity score matching, instrumental variables, difference-in-differences.
Berkson's paradox (важная интуиция)
Если отбор идёт по критерию A + B, может появиться ложная отрицательная корреляция между A и B.
Пример: medical research. Пациенты в больнице имеют болезнь A или B. Если берём только тех, кто в больнице, → может показаться, что A и B отрицательно связаны.
Но на самом деле они могут быть независимы. Искажение из-за отбора.
В A/B-тестах
A/B-тесты robust к selection bias, если:
- Аллокация случайная
- Все попавшие в группу анализируются (не только дошедшие до конца — это survivorship)
- SRM нет
Но могут страдать от:
- Opt-in tests
- Non-compliance (показали фичу, не увидели)
- Attrition во время теста
На собесе
«Что такое selection bias?» Ошибка из-за смещённого отбора объектов в анализ.
«Пример в продукте?» Анализ retention только активных пользователей. Ушедшие (где bias) не учтены.
«Как избежать?» Randomization, правильный sampling, учёт non-respondents.
«A/B-тест спасает от selection bias?» Да, при правильной аллокации. Но не от non-compliance / attrition.
Частые ошибки
1. Analyzing only treated
В A/B анализ только кого-то из групп → bias.
2. Survivorship в cohort
Только активные в cohort → retention завышен.
3. Voluntary response
Отзывы, опросы opt-in — systematic bias.
4. Retrospective comparison
«До vs после» без контроля → selection.
5. Inferring causation
Observed correlation на biased выборке ≠ causation.
Связанные темы
FAQ
Selection bias = sampling bias?
Selection — шире. Sampling — частный случай (связанный с выборкой).
Как bias влияет на заключения?
Систематически смещает. Даже на большой выборке bias не исчезает.
Randomization спасает?
В экспериментах — да. В observational studies — нет.
Можно ли «исправить» biased данные?
Частично (weights, imputation). Но лучше правильный design изначально.
Тренируйте статистику — откройте тренажёр с 1500+ вопросами для собесов.