Вы хотите оценить общее число уникальных пользователей в объединении веб и приложения. В вебе ключ — cookie_id, в приложении — user_id, прямой связи между ними нет. Какое решение наиболее корректно с точки зрения дедупликации и ограничений данных?

AПросто сложить уникальных пользователей из веб и приложения по ключам cookie_id и user_id, считая, что пересечение можно игнорировать.
BСчитать пересечение нулевым, так как ключи cookie_id и user_id разные, и просто сложить аудитории без учёта возможных дубликатов.
CПризнать, что точная дедупликация невозможна без связи идентификаторов, и либо построить маппинг cookie_iduser_id, либо дать диапазон.
DСчитать пересечение равным 100 процентам, поскольку речь об одном продукте, и принять максимум аудиторий web и app за итоговое число.
Правильный ответ. Без общего ключа идентификации точное объединение уникальных пользователей не получить — остаются маппинг или диапазон оценки.

Разбор

Разные идентификаторы создают неопределённое пересечение: часть людей будет в обоих источниках, но вы не знаете, сколько именно. Корректная аналитика либо строит маппинг cookie_iduser_id, либо честно даёт диапазон. Нижняя граница объединения — это максимум из двух аудиторий, верхняя — их сумма. Простое сложение завышает оценку, а допущения «0%» или «100%» пересечения почти всегда неверны.

Проверь себя · 1/3разбор после ответа
Для рекламной кампании у вас есть таблицы impressions и clicks (обе — журналы событий). Маркетинг спрашивает, сколько уникальных пользователей и видели рекламу, и кликнули по ней. Что нужно посчитать?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Теория множеств и дедупликация»