В отчёте по кампании указано: множество A имеет 100 тыс уникальных пользователей, множество B имеет 80 тыс уникальных пользователей, а их пересечение равно 120 тыс уникальных пользователей. Какой вывод наиболее корректен?
AОбъединение множеств равно 120 тыс уникальных пользователей: пересечение в данном случае совпадает с объединением
BПересечение между множествами полностью отсутствует: аудитории кампаний A и B не пересекаются по уникальным пользователям
CТак может быть: пересечение превышает каждое из множеств, если один пользователь учитывается несколько раз внутри кампании
DЭто нарушение правил множеств: пересечение не превышает размера любого множества, значит есть ошибка в дедупликации или ключах
Правильный ответ. По правилам теории множеств размер пересечения всегда меньше или равен размеру каждого из множеств.
Разбор
Если пересечение больше A, значит вы считаете разные сущности или нарушили дедупликацию (например, в одном месте считаете пользователей, а в другом — устройства). Такая проверка адекватности нужна, чтобы быстро обнаружить неверные ключи, дубли после джойнов или смешение единиц учёта. До исправления нельзя интерпретировать ни пересечение, ни объединение. Варианты про равенство объединения 120 тысячам или отсутствие пересечения переворачивают определения; вариант про многократный учёт внутри одной кампании как раз и есть симптом сломанной дедупликации, а не объяснение.
Проверь себя · 1/3разбор после ответа
Чтобы посчитать число уникальных пользователей в объединении двух множеств
A и B, зная |A|, |B| и |A intersection B|, какую формулу включения–исключения нужно использовать?Ещё вопросы по теме «Теория множеств и дедупликация»
- В таблице событий за день записано 2 млн строк, а в отчёте по аудитории видно 1.2 млн уникальных пользователей. Какое объяснение наиболее вероятно?
- В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
- В отчёте уникальные пользователи по каналам: email 200 тыс, push 150 тыс, sms 50 тыс. Сумма по строкам — 400 тыс, а общий итог по всем каналам — 260 тыс уникальных пользователей. Что это чаще всего означает?
- Чтобы посчитать число уникальных пользователей в объединении двух множеств `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу включения–исключения нужно использовать?
- Вы считаете число покупателей как уникальных пользователей за день. В данных есть `device_id` и `user_id` (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?
- Все вопросы по «Теория множеств и дедупликация» →