Вы считаете число покупателей как уникальных пользователей за день. В данных есть device_id и user_id (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?
AВсегда считать только по
device_id, потому что устройство гарантирует отсутствие пересечения аудиторий между платформамиBСложить уникальных пользователей по
device_id и по user_id, чтобы получить полное объединение без потери анонимныхCСчитать уникальных по
user_id там, где он есть, а для анонимных использовать стабильный device_id, чтобы не считать дваждыDСчитать уникальных по
order_id, потому что число заказов за день почти всегда совпадает с числом уникальных покупателейПравильный ответ. Ключ дедупликации должен соответствовать сущности: для уникальных пользователей это обычно стабильный
user_id, а не device_id.Разбор
Если один человек совершает покупку с двух устройств, подсчёт по device_id завышает аудиторию и создаёт искусственное пересечение между платформами. Подсчёт по user_id ближе к бизнес-смыслу уникального человека, но требует отдельного решения для анонимных. Важно заранее определить, что считается уникальными пользователями, и быть последовательным во всех отчётах, иначе цифры между дашбордами не будут сходиться.
Проверь себя · 1/3разбор после ответа
У вас число уникальных пользователей в
web равно 500 тыс, в app равно 400 тыс, а общее объединение по user_id равно 700 тыс. Каков размер пересечения между web и app?Ещё вопросы по теме «Теория множеств и дедупликация»
- В таблице событий за день записано 2 млн строк, а в отчёте по аудитории видно 1.2 млн уникальных пользователей. Какое объяснение наиболее вероятно?
- В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
- В отчёте уникальные пользователи по каналам: email 200 тыс, push 150 тыс, sms 50 тыс. Сумма по строкам — 400 тыс, а общий итог по всем каналам — 260 тыс уникальных пользователей. Что это чаще всего означает?
- Чтобы посчитать число уникальных пользователей в объединении двух множеств `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу включения–исключения нужно использовать?
- Аналитик сложил `DAU` за 30 дней и получил 3 млн, а `MAU` за тот же месяц равен 400 тыс уникальных пользователей. Почему это может быть нормально?
- Все вопросы по «Теория множеств и дедупликация» →