7 мая 2026 г.·2 мин чтения

Bias и fairness в ML на собеседовании Data Scientist

Проверь себя · 1/3разбор после ответа

Для набора 1, 2, 2, 3, 3, 3, 4 чему равна мода (значение, которое встречается чаще всего)?

Содержание:

Зачем разбирать на собесе
Виды bias
Fairness metrics
Demographic parity
Equalized odds
Mitigation
Связанные темы
FAQ

Зачем разбирать на собесе

Bias / fairness — современная тема ML ethics. На собесе DS: «типы bias», «отличие fairness metrics».

Виды bias

Selection bias. Sample не representative populations. Например, only college-educated в training data.

Confirmation bias. Анализ ищет patterns supporting existing belief.

Sampling bias. Не uniform sampling — какие-то groups under-represented.

Survivorship bias. Видим только winners (failed startups out of dataset).

Historical bias. Society bias встроен в data.

Measurement bias. Метрики самих feature biased.

Aggregation bias. Single model для разных subgroups → suboptimal для каждой.

Fairness metrics

Disparate impact / Adverse impact.

P(y=1 | group=A) / P(y=1 | group=B) ≥ 0.8

«Four-fifths rule» — group A approval rate должен быть at least 80% group B's.

Demographic parity

P(prediction=1 | A) = P(prediction=1 | B)

Equal positive rate для всех groups.

Минус. Не учитывает factual difference.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Equalized odds

P(prediction=1 | y=1, A) = P(prediction=1 | y=1, B)
P(prediction=1 | y=0, A) = P(prediction=1 | y=0, B)

Equal TPR + FPR для groups.

Strict requirement. Часто incompatible с demographic parity.

Mitigation

Pre-processing. Re-balancing dataset, removing protected features.

In-processing. Add fairness constraint в loss.

Post-processing. Adjust thresholds per group.

Tools: AIF360 (IBM), Fairlearn (Microsoft).

Trade-off. Часто accuracy и fairness — trade-off. Cannot satisfy multiple fairness criteria одновременно (Chouldechova 2017).

Practical approach.

Понять stakeholders' definition fairness.
Pick relevant metric.
Monitor в production.
Document trade-offs.

Связанные темы

FAQ

Можно полностью устранить bias?

Practically — нет. Минимизировать — да. Total fairness (every metric) — теоретически impossible.

Это официальная информация?

Нет. Статья основана на работах (Hardt 2016, Chouldechova 2017), документации AIF360 / Fairlearn.

Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.