У вас есть два источника events: web_events и app_events. В каждом вы умеете считать unique users по user_id. Как корректно получить общее число unique users по двум источникам?
AСделать
union строк из обоих источников (по user_id) и затем посчитать COUNT(DISTINCT user_id) как deduplication.BПосчитать
COUNT(DISTINCT user_id) в каждом источнике и сложить результаты.CПосчитать
COUNT(*) в обоих источниках и назвать это unique users.DВзять
intersection источников и считать её как общий итог.Правильный ответ. Если
user_id может быть и в web_events, и в app_events, то суммирование двух unique users без union завышает из-за overlap.Разбор
Здесь каждый источник — это set user_id, и вам нужен размер union. Самый прямой способ — объединить источники (union) и сделать deduplication через COUNT(DISTINCT user_id). Если просто сложить два COUNT(DISTINCT user_id), вы посчитаете intersection дважды и получите завышение. Такой проверка здравого смысла полезен для отчётов по cross-platform аудитории.
Проверь себя · 1/3разбор после ответа
Аналитик сложил
DAU за 30 дней и получил 3 млн, а MAU за тот же месяц равен 400 тыс unique users. Почему это может быть нормально?Ещё вопросы по теме «Теория множеств и дедупликация»
- В `events` за день 2 млн `events`, а в отчёте по `audience` 1.2 млн `unique users`. Какое объяснение наиболее вероятно?
- В `channel` `search` 400 тыс `unique users`, в `channel` `social` 300 тыс `unique users`, а `overlap` (`intersection`) между ними 100 тыс `unique users`. Сколько `unique users` в `union` этих двух `set`?
- В отчёте вы видите `unique users` по `channel`: `email` 200 тыс, `push` 150 тыс, `sms` 50 тыс. Сумма по строкам 400 тыс, но общий итог по всем `channel` показывает 260 тыс `unique users`. Что это чаще всего означает?
- Чтобы посчитать `unique users` в `union` двух `set` `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу `включение–исключение` нужно использовать?
- Вы считаете число `buyers` как `unique users` за день. В данных есть `device_id` и `user_id` (если `user` залогинен). Какой подход к `deduplication` чаще всего более корректен для подсчёта `buyers`?
- Все вопросы по «Теория множеств и дедупликация» →