В отчёте по campaign указано: set A имеет 100 тыс unique users, set B имеет 80 тыс unique users, а их intersection равна 120 тыс unique users. Какой вывод наиболее корректен?
AЭто возможно, потому что
intersection может быть больше каждого set.BЭто нарушает
constraints: intersection не может превышать размер любого set, значит есть ошибка в deduplication или в определении unique users.CЭто означает, что
union равен 120 тыс unique users.DЭто означает, что
overlap отсутствует.Правильный ответ. По
constraints размер intersection всегда меньше или равен размеру каждого set.Разбор
Если intersection больше A, значит вы считаете разные сущности или нарушили deduplication (например, в одном месте считаете users, а в другом devices). Такой проверка здравого смысла нужен, чтобы быстро обнаружить неверные ключи, дубли после джойнов или смешение units. До исправления нельзя интерпретировать overlap и union.
Проверь себя · 1/3разбор после ответа
Чтобы посчитать
unique users в union двух set A и B, зная |A|, |B| и |A intersection B|, какую формулу включение–исключение нужно использовать?Ещё вопросы по теме «Теория множеств и дедупликация»
- В `events` за день 2 млн `events`, а в отчёте по `audience` 1.2 млн `unique users`. Какое объяснение наиболее вероятно?
- В `channel` `search` 400 тыс `unique users`, в `channel` `social` 300 тыс `unique users`, а `overlap` (`intersection`) между ними 100 тыс `unique users`. Сколько `unique users` в `union` этих двух `set`?
- В отчёте вы видите `unique users` по `channel`: `email` 200 тыс, `push` 150 тыс, `sms` 50 тыс. Сумма по строкам 400 тыс, но общий итог по всем `channel` показывает 260 тыс `unique users`. Что это чаще всего означает?
- Чтобы посчитать `unique users` в `union` двух `set` `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу `включение–исключение` нужно использовать?
- Вы считаете число `buyers` как `unique users` за день. В данных есть `device_id` и `user_id` (если `user` залогинен). Какой подход к `deduplication` чаще всего более корректен для подсчёта `buyers`?
- Все вопросы по «Теория множеств и дедупликация» →