Вы считаете число buyers как unique users за день. В данных есть device_id и user_id (если user залогинен). Какой подход к deduplication чаще всего более корректен для подсчёта buyers?

AСчитать unique users по user_id там, где он есть, и отдельно продумать анонимных, чтобы один user на разных device не считался дважды.
BВсегда считать по device_id, потому что это гарантирует отсутствие overlap.
CСчитать по order_id, потому что это всегда равно unique users.
DСложить unique users по device_id и по user_id, чтобы получить полный union.
Правильный ответ. Ключ deduplication должен соответствовать сущности, которую вы считаете: для unique users это обычно стабильный user_id.

Разбор

Если один user совершает purchase с двух device, то подсчёт по device_id завышает аудиторию и увеличивает искусственный overlap между platform. Подсчёт по user_id ближе к бизнес-смыслу уникального человека, но требует решения для анонимных. Важно заранее определить, что считается unique users, и быть последовательным во всех отчётах.

Проверь себя · 1/3разбор после ответа
Маркетинг просит сегмент unique users, которые являются buyers продукта A и buyers продукта B за месяц. Какая операция над set buyers соответствует запросу?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Теория множеств и дедупликация»