Bias и fairness в ML на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
Bias / fairness — современная тема ML ethics. На собесе DS: «типы bias», «отличие fairness metrics».
Виды bias
Selection bias. Sample не representative populations. Например, only college-educated в training data.
Confirmation bias. Анализ ищет patterns supporting existing belief.
Sampling bias. Не uniform sampling — какие-то groups under-represented.
Survivorship bias. Видим только winners (failed startups out of dataset).
Historical bias. Society bias встроен в data.
Measurement bias. Метрики самих feature biased.
Aggregation bias. Single model для разных subgroups → suboptimal для каждой.
Fairness metrics
Disparate impact / Adverse impact.
P(y=1 | group=A) / P(y=1 | group=B) ≥ 0.8«Four-fifths rule» — group A approval rate должен быть at least 80% group B's.
Demographic parity
P(prediction=1 | A) = P(prediction=1 | B)Equal positive rate для всех groups.
Минус. Не учитывает factual difference.
Equalized odds
P(prediction=1 | y=1, A) = P(prediction=1 | y=1, B)
P(prediction=1 | y=0, A) = P(prediction=1 | y=0, B)Equal TPR + FPR для groups.
Strict requirement. Часто incompatible с demographic parity.
Mitigation
Pre-processing. Re-balancing dataset, removing protected features.
In-processing. Add fairness constraint в loss.
Post-processing. Adjust thresholds per group.
Tools: AIF360 (IBM), Fairlearn (Microsoft).
Trade-off. Часто accuracy и fairness — trade-off. Cannot satisfy multiple fairness criteria одновременно (Chouldechova 2017).
Practical approach.
- Понять stakeholders' definition fairness.
- Pick relevant metric.
- Monitor в production.
- Document trade-offs.
Связанные темы
- Class imbalance на собесе DS
- Causal inference для DS
- Bias-variance trade-off для DS
- SHAP и interpretability на собесе DS
- Подготовка к собесу Data Scientist
FAQ
Можно полностью устранить bias?
Practically — нет. Минимизировать — да. Total fairness (every metric) — теоретически impossible.
Это официальная информация?
Нет. Статья основана на работах (Hardt 2016, Chouldechova 2017), документации AIF360 / Fairlearn.
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.