Чтобы посчитать unique users в union двух set A и B, зная |A|, |B| и |A intersection B|, какую формулу включение–исключение нужно использовать?
A
|A union B| = |A| + |B| + |A intersection B|B
|A union B| = |A| - |B| - |A intersection B|C
|A union B| = |A| * |B| / |A intersection B|D
|A union B| = |A| + |B| - |A intersection B|Правильный ответ. Для двух
set принцип включение–исключение требует вычесть intersection, чтобы убрать двойной счёт overlap.Разбор
Каждый user из intersection попадает и в A, и в B, поэтому при суммировании он считается дважды. Вычитание |A intersection B| возвращает правильный размер union. Эта формула лежит в основе многих задач про unique users по нескольким источникам.
Проверь себя · 1/3разбор после ответа
Маркетинг просит сегмент
unique users, которые являются buyers продукта A и buyers продукта B за месяц. Какая операция над set buyers соответствует запросу?Ещё вопросы по теме «Теория множеств и дедупликация»
- В `events` за день 2 млн `events`, а в отчёте по `audience` 1.2 млн `unique users`. Какое объяснение наиболее вероятно?
- В `channel` `search` 400 тыс `unique users`, в `channel` `social` 300 тыс `unique users`, а `overlap` (`intersection`) между ними 100 тыс `unique users`. Сколько `unique users` в `union` этих двух `set`?
- В отчёте вы видите `unique users` по `channel`: `email` 200 тыс, `push` 150 тыс, `sms` 50 тыс. Сумма по строкам 400 тыс, но общий итог по всем `channel` показывает 260 тыс `unique users`. Что это чаще всего означает?
- Вы считаете число `buyers` как `unique users` за день. В данных есть `device_id` и `user_id` (если `user` залогинен). Какой подход к `deduplication` чаще всего более корректен для подсчёта `buyers`?
- Аналитик сложил `DAU` за 30 дней и получил 3 млн, а `MAU` за тот же месяц равен 400 тыс `unique users`. Почему это может быть нормально?
- Все вопросы по «Теория множеств и дедупликация» →