В отчёте по кампании указано: множество A имеет 100 тыс уникальных пользователей, множество B имеет 80 тыс уникальных пользователей, а их пересечение равно 120 тыс уникальных пользователей. Какой вывод наиболее корректен?

AОбъединение множеств равно 120 тыс уникальных пользователей: пересечение в данном случае совпадает с объединением
BПересечение между множествами полностью отсутствует: аудитории кампаний A и B не пересекаются по уникальным пользователям
CТак может быть: пересечение превышает каждое из множеств, если один пользователь учитывается несколько раз внутри кампании
DЭто нарушение правил множеств: пересечение не превышает размера любого множества, значит есть ошибка в дедупликации или ключах
Правильный ответ. По правилам теории множеств размер пересечения всегда меньше или равен размеру каждого из множеств.

Разбор

Если пересечение больше A, значит вы считаете разные сущности или нарушили дедупликацию (например, в одном месте считаете пользователей, а в другом — устройства). Такая проверка адекватности нужна, чтобы быстро обнаружить неверные ключи, дубли после джойнов или смешение единиц учёта. До исправления нельзя интерпретировать ни пересечение, ни объединение. Варианты про равенство объединения 120 тысячам или отсутствие пересечения переворачивают определения; вариант про многократный учёт внутри одной кампании как раз и есть симптом сломанной дедупликации, а не объяснение.

Проверь себя · 1/3разбор после ответа
Чтобы посчитать число уникальных пользователей в объединении двух множеств A и B, зная |A|, |B| и |A intersection B|, какую формулу включения–исключения нужно использовать?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Теория множеств и дедупликация»