Вы строите отчёт по платформе и видите iOS и Android. Какое утверждение о пересечении наиболее корректно в зависимости от ключа дедупликации?
AЕсли считать по
device_id, пересечение между iOS и Android всегда больше нуля, потому что одно устройство учитывается в обеих платформах одновременно и не дедуплицируетсяBЕсли считать уникальных пользователей по
user_id, пересечение возможно: один человек заходит с двух устройств; если считать по device_id, такие множества обычно не пересекаютсяCЕсли считать по
user_id, пересечение между iOS и Android всегда равно нулю, потому что один пользователь не может быть учтён дважды в одном отчёте по платформамDЕсли пересечение между iOS и Android получилось ненулевым, это всегда означает ошибку в данных и требует немедленного пересчёта отчёта по платформам
Правильный ответ. Размер пересечения зависит от ключа дедупликации:
user_id даёт кросс-платформенное пересечение, device_id делает множества почти раздельными.Разбор
Если цель — считать людей, используйте user_id: тогда один пользователь может попадать и в iOS, и в Android, создавая пересечение. Если цель — считать устройства, то device_id обычно уникален в пределах одной платформы, и пересечение будет близко к нулю. Утверждение про device_id всегда > 0 неверно: одно устройство почти никогда не работает на двух ОС. Утверждение про user_id всегда = 0 тоже неверно: люди свободно переключаются между телефоном и планшетом. И ненулевое пересечение само по себе не значит ошибку — это нормальное следствие выбранного ключа.
Проверь себя · 1/3разбор после ответа
Маркетинг просит сегмент уникальных пользователей, которые являются покупателями продукта
A и покупателями продукта B за месяц. Какая операция над множествами покупателей соответствует запросу?Ещё вопросы по теме «Теория множеств и дедупликация»
- В таблице событий за день записано 2 млн строк, а в отчёте по аудитории видно 1.2 млн уникальных пользователей. Какое объяснение наиболее вероятно?
- В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
- В отчёте уникальные пользователи по каналам: email 200 тыс, push 150 тыс, sms 50 тыс. Сумма по строкам — 400 тыс, а общий итог по всем каналам — 260 тыс уникальных пользователей. Что это чаще всего означает?
- Чтобы посчитать число уникальных пользователей в объединении двух множеств `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу включения–исключения нужно использовать?
- Вы считаете число покупателей как уникальных пользователей за день. В данных есть `device_id` и `user_id` (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?
- Все вопросы по «Теория множеств и дедупликация» →