В отчёте: set A = 400 тыс unique users, set B = 300 тыс unique users. При этом заявлено, что union равен 900 тыс unique users. Какой проверка здравого смысла по границы самый верный?

AЭто невозможно: по границы размер union должен быть между нижняя граница 400 тыс и верхняя граница 700 тыс.
BЭто возможно, если intersection очень большая.
CЭто возможно, если выполнить deduplication по event_id.
DЭто возможно, если overlap равен 0 и добавить ещё один channel.
Правильный ответ. Для двух set размер union имеет очевидные границы: не меньше максимума и не больше суммы.

Разбор

Нижняя граница (нижняя граница) равна max(|A|, |B|), потому что union содержит как минимум самый большой set. Верхняя граница (верхняя граница) равна |A| + |B|, когда overlap отсутствует. Если отчёт нарушает эти границы, скорее всего перепутали units, ключ deduplication или сложили метрики неправильно. Такой проверка здравого смысла быстро отсекает невозможные значения.

Проверь себя · 1/3разбор после ответа
У вас unique users в web = 500 тыс, в app = 400 тыс, а общий union по user_id = 700 тыс. Какой intersection (overlap) между web и app?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Теория множеств и дедупликация»