У вас три set channel: email 100 тыс unique users, push 120 тыс unique users, sms 60 тыс unique users. Парные intersection: email и push = 40 тыс, email и sms = 10 тыс, push и sms = 20 тыс. Тройной overlap (intersection всех трёх) = 5 тыс. Сколько unique users в union трёх set по включение–исключение?
A210 тыс
B205 тыс
C280 тыс
D215 тыс
Правильный ответ. Для трёх
set включение–исключение использует сумму размеров, минус парные intersection, плюс тройной intersection.Разбор
При суммировании тройной overlap учитывается три раза, а при вычитании парных intersection он вычитается тоже три раза, поэтому его нужно добавить обратно один раз. Формула: |A union B union C| = |A| + |B| + |C| - |A intersection B| - |A intersection C| - |B intersection C| + |A intersection B intersection C|. Это типовая задача для оценки unique users охвата по нескольким channel.
Проверь себя · 1/3разбор после ответа
В
channel search 400 тыс unique users, в channel social 300 тыс unique users, а overlap (intersection) между ними 100 тыс unique users. Сколько unique users в union этих двух set?Ещё вопросы по теме «Теория множеств и дедупликация»
- В `events` за день 2 млн `events`, а в отчёте по `audience` 1.2 млн `unique users`. Какое объяснение наиболее вероятно?
- В `channel` `search` 400 тыс `unique users`, в `channel` `social` 300 тыс `unique users`, а `overlap` (`intersection`) между ними 100 тыс `unique users`. Сколько `unique users` в `union` этих двух `set`?
- В отчёте вы видите `unique users` по `channel`: `email` 200 тыс, `push` 150 тыс, `sms` 50 тыс. Сумма по строкам 400 тыс, но общий итог по всем `channel` показывает 260 тыс `unique users`. Что это чаще всего означает?
- Чтобы посчитать `unique users` в `union` двух `set` `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу `включение–исключение` нужно использовать?
- Вы считаете число `buyers` как `unique users` за день. В данных есть `device_id` и `user_id` (если `user` залогинен). Какой подход к `deduplication` чаще всего более корректен для подсчёта `buyers`?
- Все вопросы по «Теория множеств и дедупликация» →