У вас число уникальных пользователей в web равно 500 тыс, в app равно 400 тыс, а общее объединение по user_id равно 700 тыс. Каков размер пересечения между web и app?
A200 тыс по формуле
500 + 400 - 700: дважды посчитанные пользователи в обоих источникахB700 тыс по совпадению с объединением: оценка предполагает, что все пользователи
web есть в appC900 тыс по сумме
500 + 400: оценка предполагает пустое пересечение между источникамиD100 тыс по разности
500 - 400: оценка отождествляет пересечение с разницей размеров источниковПравильный ответ. Для двух множеств размер пересечения восстанавливается из объединения:
|A ∩ B| = |A| + |B| - |A ∪ B|.Разбор
Если известны размеры двух множеств и их объединение, то пересечение — это та часть, которую посчитали дважды при сложении. По формуле включений-исключений |A ∩ B| = |A| + |B| - |A ∪ B|, в нашем случае 500 + 400 - 700 = 200 тыс. Такие расчёты помогают объяснить, почему сумма уникальных пользователей по источникам не совпадает с общим числом уникальных пользователей. Это также полезная проверка здравого смысла на реалистичность доли пересечения.
Проверь себя · 1/3разбор после ответа
Чтобы посчитать число уникальных пользователей в объединении двух множеств
A и B, зная |A|, |B| и |A intersection B|, какую формулу включения–исключения нужно использовать?Ещё вопросы по теме «Теория множеств и дедупликация»
- В таблице событий за день записано 2 млн строк, а в отчёте по аудитории видно 1.2 млн уникальных пользователей. Какое объяснение наиболее вероятно?
- В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
- В отчёте уникальные пользователи по каналам: email 200 тыс, push 150 тыс, sms 50 тыс. Сумма по строкам — 400 тыс, а общий итог по всем каналам — 260 тыс уникальных пользователей. Что это чаще всего означает?
- Чтобы посчитать число уникальных пользователей в объединении двух множеств `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу включения–исключения нужно использовать?
- Вы считаете число покупателей как уникальных пользователей за день. В данных есть `device_id` и `user_id` (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?
- Все вопросы по «Теория множеств и дедупликация» →