Вы хотите оценить общее число уникальных пользователей в объединении веб и приложения. В вебе ключ — cookie_id, в приложении — user_id, прямой связи между ними нет. Какое решение наиболее корректно с точки зрения дедупликации и ограничений данных?
AПросто сложить уникальных пользователей из веб и приложения по ключам
cookie_id и user_id, считая, что пересечение можно игнорировать.BСчитать пересечение нулевым, так как ключи
cookie_id и user_id разные, и просто сложить аудитории без учёта возможных дубликатов.CПризнать, что точная дедупликация невозможна без связи идентификаторов, и либо построить маппинг
cookie_id→user_id, либо дать диапазон.DСчитать пересечение равным 100 процентам, поскольку речь об одном продукте, и принять максимум аудиторий
web и app за итоговое число.Правильный ответ. Без общего ключа идентификации точное объединение уникальных пользователей не получить — остаются маппинг или диапазон оценки.
Разбор
Разные идентификаторы создают неопределённое пересечение: часть людей будет в обоих источниках, но вы не знаете, сколько именно. Корректная аналитика либо строит маппинг cookie_id→user_id, либо честно даёт диапазон. Нижняя граница объединения — это максимум из двух аудиторий, верхняя — их сумма. Простое сложение завышает оценку, а допущения «0%» или «100%» пересечения почти всегда неверны.
Проверь себя · 1/3разбор после ответа
Для рекламной кампании у вас есть таблицы
impressions и clicks (обе — журналы событий). Маркетинг спрашивает, сколько уникальных пользователей и видели рекламу, и кликнули по ней. Что нужно посчитать?Ещё вопросы по теме «Теория множеств и дедупликация»
- В таблице событий за день записано 2 млн строк, а в отчёте по аудитории видно 1.2 млн уникальных пользователей. Какое объяснение наиболее вероятно?
- В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
- В отчёте уникальные пользователи по каналам: email 200 тыс, push 150 тыс, sms 50 тыс. Сумма по строкам — 400 тыс, а общий итог по всем каналам — 260 тыс уникальных пользователей. Что это чаще всего означает?
- Чтобы посчитать число уникальных пользователей в объединении двух множеств `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу включения–исключения нужно использовать?
- Вы считаете число покупателей как уникальных пользователей за день. В данных есть `device_id` и `user_id` (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?
- Все вопросы по «Теория множеств и дедупликация» →