Вы хотите оценить общий union unique users между web и app. В web ключ — cookie_id, в app ключ — user_id, и прямого соответствия между ними нет. Какое решение наиболее корректно с точки зрения deduplication и constraints?
AПросто сложить
unique users из web и app: overlap можно игнорировать.BВсегда считать, что
overlap равен 0, потому что ключи разные.CВсегда считать, что
overlap равен 100%, потому что это один продукт.DПризнать, что точный
deduplication невозможен без identity связи, и либо построить маппинг cookie_id→user_id, либо дать границы для union (между нижняя граница и верхняя граница).Правильный ответ. Без общего
identity ключа точный union unique users нельзя получить, остаются маппинг или границы.Разбор
Разные идентификаторы создают неопределённый overlap: часть людей будет в обоих источниках, но вы не знаете, какая именно. Корректная аналитика либо строит identity маппинг, либо честно даёт диапазон границы для union. Lower bound — это максимум из двух аудиторий, верхняя граница — их сумма. Такой ответ показывает зрелое понимание ограничений deduplication.
Проверь себя · 1/3разбор после ответа
Для
campaign у вас есть таблицы impressions и clicks (оба — events). Маркетинг спрашивает, сколько unique users и видели, и кликали. Что нужно посчитать?Ещё вопросы по теме «Теория множеств и дедупликация»
- В `events` за день 2 млн `events`, а в отчёте по `audience` 1.2 млн `unique users`. Какое объяснение наиболее вероятно?
- В `channel` `search` 400 тыс `unique users`, в `channel` `social` 300 тыс `unique users`, а `overlap` (`intersection`) между ними 100 тыс `unique users`. Сколько `unique users` в `union` этих двух `set`?
- В отчёте вы видите `unique users` по `channel`: `email` 200 тыс, `push` 150 тыс, `sms` 50 тыс. Сумма по строкам 400 тыс, но общий итог по всем `channel` показывает 260 тыс `unique users`. Что это чаще всего означает?
- Чтобы посчитать `unique users` в `union` двух `set` `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу `включение–исключение` нужно использовать?
- Вы считаете число `buyers` как `unique users` за день. В данных есть `device_id` и `user_id` (если `user` залогинен). Какой подход к `deduplication` чаще всего более корректен для подсчёта `buyers`?
- Все вопросы по «Теория множеств и дедупликация» →