В отчёте: set A = 400 тыс unique users, set B = 300 тыс unique users. При этом заявлено, что union равен 900 тыс unique users. Какой проверка здравого смысла по границы самый верный?
AЭто невозможно: по
границы размер union должен быть между нижняя граница 400 тыс и верхняя граница 700 тыс.BЭто возможно, если
intersection очень большая.CЭто возможно, если выполнить
deduplication по event_id.DЭто возможно, если
overlap равен 0 и добавить ещё один channel.Правильный ответ. Для двух
set размер union имеет очевидные границы: не меньше максимума и не больше суммы.Разбор
Нижняя граница (нижняя граница) равна max(|A|, |B|), потому что union содержит как минимум самый большой set. Верхняя граница (верхняя граница) равна |A| + |B|, когда overlap отсутствует. Если отчёт нарушает эти границы, скорее всего перепутали units, ключ deduplication или сложили метрики неправильно. Такой проверка здравого смысла быстро отсекает невозможные значения.
Проверь себя · 1/3разбор после ответа
У вас
unique users в web = 500 тыс, в app = 400 тыс, а общий union по user_id = 700 тыс. Какой intersection (overlap) между web и app?Ещё вопросы по теме «Теория множеств и дедупликация»
- В `events` за день 2 млн `events`, а в отчёте по `audience` 1.2 млн `unique users`. Какое объяснение наиболее вероятно?
- В `channel` `search` 400 тыс `unique users`, в `channel` `social` 300 тыс `unique users`, а `overlap` (`intersection`) между ними 100 тыс `unique users`. Сколько `unique users` в `union` этих двух `set`?
- В отчёте вы видите `unique users` по `channel`: `email` 200 тыс, `push` 150 тыс, `sms` 50 тыс. Сумма по строкам 400 тыс, но общий итог по всем `channel` показывает 260 тыс `unique users`. Что это чаще всего означает?
- Чтобы посчитать `unique users` в `union` двух `set` `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу `включение–исключение` нужно использовать?
- Вы считаете число `buyers` как `unique users` за день. В данных есть `device_id` и `user_id` (если `user` залогинен). Какой подход к `deduplication` чаще всего более корректен для подсчёта `buyers`?
- Все вопросы по «Теория множеств и дедупликация» →