В отчёте по campaign указано: set A имеет 100 тыс unique users, set B имеет 80 тыс unique users, а их intersection равна 120 тыс unique users. Какой вывод наиболее корректен?

AЭто возможно, потому что intersection может быть больше каждого set.
BЭто нарушает constraints: intersection не может превышать размер любого set, значит есть ошибка в deduplication или в определении unique users.
CЭто означает, что union равен 120 тыс unique users.
DЭто означает, что overlap отсутствует.
Правильный ответ. По constraints размер intersection всегда меньше или равен размеру каждого set.

Разбор

Если intersection больше A, значит вы считаете разные сущности или нарушили deduplication (например, в одном месте считаете users, а в другом devices). Такой проверка здравого смысла нужен, чтобы быстро обнаружить неверные ключи, дубли после джойнов или смешение units. До исправления нельзя интерпретировать overlap и union.

Проверь себя · 1/3разбор после ответа
Чтобы посчитать unique users в union двух set A и B, зная |A|, |B| и |A intersection B|, какую формулу включение–исключение нужно использовать?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Теория множеств и дедупликация»