Bias и fairness в ML на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем разбирать на собесе

Bias / fairness — современная тема ML ethics. На собесе DS: «типы bias», «отличие fairness metrics».

Виды bias

Selection bias. Sample не representative populations. Например, only college-educated в training data.

Confirmation bias. Анализ ищет patterns supporting existing belief.

Sampling bias. Не uniform sampling — какие-то groups under-represented.

Survivorship bias. Видим только winners (failed startups out of dataset).

Historical bias. Society bias встроен в data.

Measurement bias. Метрики самих feature biased.

Aggregation bias. Single model для разных subgroups → suboptimal для каждой.

Fairness metrics

Disparate impact / Adverse impact.

P(y=1 | group=A) / P(y=1 | group=B) ≥ 0.8

«Four-fifths rule» — group A approval rate должен быть at least 80% group B's.

Demographic parity

P(prediction=1 | A) = P(prediction=1 | B)

Equal positive rate для всех groups.

Минус. Не учитывает factual difference.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Equalized odds

P(prediction=1 | y=1, A) = P(prediction=1 | y=1, B)
P(prediction=1 | y=0, A) = P(prediction=1 | y=0, B)

Equal TPR + FPR для groups.

Strict requirement. Часто incompatible с demographic parity.

Mitigation

Pre-processing. Re-balancing dataset, removing protected features.

In-processing. Add fairness constraint в loss.

Post-processing. Adjust thresholds per group.

Tools: AIF360 (IBM), Fairlearn (Microsoft).

Trade-off. Часто accuracy и fairness — trade-off. Cannot satisfy multiple fairness criteria одновременно (Chouldechova 2017).

Practical approach.

  1. Понять stakeholders' definition fairness.
  2. Pick relevant metric.
  3. Monitor в production.
  4. Document trade-offs.

Связанные темы

FAQ

Можно полностью устранить bias?

Practically — нет. Минимизировать — да. Total fairness (every metric) — теоретически impossible.

Это официальная информация?

Нет. Статья основана на работах (Hardt 2016, Chouldechova 2017), документации AIF360 / Fairlearn.


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.