Вы считаете число buyers как unique users за день. В данных есть device_id и user_id (если user залогинен). Какой подход к deduplication чаще всего более корректен для подсчёта buyers?
AСчитать
unique users по user_id там, где он есть, и отдельно продумать анонимных, чтобы один user на разных device не считался дважды.BВсегда считать по
device_id, потому что это гарантирует отсутствие overlap.CСчитать по
order_id, потому что это всегда равно unique users.DСложить
unique users по device_id и по user_id, чтобы получить полный union.Правильный ответ. Ключ
deduplication должен соответствовать сущности, которую вы считаете: для unique users это обычно стабильный user_id.Разбор
Если один user совершает purchase с двух device, то подсчёт по device_id завышает аудиторию и увеличивает искусственный overlap между platform. Подсчёт по user_id ближе к бизнес-смыслу уникального человека, но требует решения для анонимных. Важно заранее определить, что считается unique users, и быть последовательным во всех отчётах.
Проверь себя · 1/3разбор после ответа
Маркетинг просит сегмент
unique users, которые являются buyers продукта A и buyers продукта B за месяц. Какая операция над set buyers соответствует запросу?Ещё вопросы по теме «Теория множеств и дедупликация»
- В `events` за день 2 млн `events`, а в отчёте по `audience` 1.2 млн `unique users`. Какое объяснение наиболее вероятно?
- В `channel` `search` 400 тыс `unique users`, в `channel` `social` 300 тыс `unique users`, а `overlap` (`intersection`) между ними 100 тыс `unique users`. Сколько `unique users` в `union` этих двух `set`?
- В отчёте вы видите `unique users` по `channel`: `email` 200 тыс, `push` 150 тыс, `sms` 50 тыс. Сумма по строкам 400 тыс, но общий итог по всем `channel` показывает 260 тыс `unique users`. Что это чаще всего означает?
- Чтобы посчитать `unique users` в `union` двух `set` `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу `включение–исключение` нужно использовать?
- Аналитик сложил `DAU` за 30 дней и получил 3 млн, а `MAU` за тот же месяц равен 400 тыс `unique users`. Почему это может быть нормально?
- Все вопросы по «Теория множеств и дедупликация» →