Вы считаете число покупателей как уникальных пользователей за день. В данных есть device_id и user_id (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?

AВсегда считать только по device_id, потому что устройство гарантирует отсутствие пересечения аудиторий между платформами
BСложить уникальных пользователей по device_id и по user_id, чтобы получить полное объединение без потери анонимных
CСчитать уникальных по user_id там, где он есть, а для анонимных использовать стабильный device_id, чтобы не считать дважды
DСчитать уникальных по order_id, потому что число заказов за день почти всегда совпадает с числом уникальных покупателей
Правильный ответ. Ключ дедупликации должен соответствовать сущности: для уникальных пользователей это обычно стабильный user_id, а не device_id.

Разбор

Если один человек совершает покупку с двух устройств, подсчёт по device_id завышает аудиторию и создаёт искусственное пересечение между платформами. Подсчёт по user_id ближе к бизнес-смыслу уникального человека, но требует отдельного решения для анонимных. Важно заранее определить, что считается уникальными пользователями, и быть последовательным во всех отчётах, иначе цифры между дашбордами не будут сходиться.

Проверь себя · 1/3разбор после ответа
У вас число уникальных пользователей в web равно 500 тыс, в app равно 400 тыс, а общее объединение по user_id равно 700 тыс. Каков размер пересечения между web и app?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Теория множеств и дедупликация»