В events за день 2 млн events, а в отчёте по audience 1.2 млн unique users. Какое объяснение наиболее вероятно?
AОдин и тот же
user_id может сгенерировать много events, поэтому events обычно больше, чем unique users.BПосле
deduplication количество events всегда должно стать равно числу unique users.C
unique users считаются как intersection двух set, поэтому число всегда меньше events.D
unique users — это то же самое, что union всех events, поэтому разницы быть не должно.Правильный ответ. Число
events и число unique users измеряют разные units и не обязаны совпадать.Разбор
В одном set events один user_id может встречаться много раз, поэтому счётчик events растёт быстрее. Метрика unique users делает deduplication по user_id и считает каждого user один раз за период. Такой проверка здравого смысла помогает не перепутать объём events с размером audience.
Проверь себя · 1/3разбор после ответа
В
channel search 400 тыс unique users, в channel social 300 тыс unique users, а overlap (intersection) между ними 100 тыс unique users. Сколько unique users в union этих двух set?Ещё вопросы по теме «Теория множеств и дедупликация»
- В `channel` `search` 400 тыс `unique users`, в `channel` `social` 300 тыс `unique users`, а `overlap` (`intersection`) между ними 100 тыс `unique users`. Сколько `unique users` в `union` этих двух `set`?
- В отчёте вы видите `unique users` по `channel`: `email` 200 тыс, `push` 150 тыс, `sms` 50 тыс. Сумма по строкам 400 тыс, но общий итог по всем `channel` показывает 260 тыс `unique users`. Что это чаще всего означает?
- Чтобы посчитать `unique users` в `union` двух `set` `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу `включение–исключение` нужно использовать?
- Вы считаете число `buyers` как `unique users` за день. В данных есть `device_id` и `user_id` (если `user` залогинен). Какой подход к `deduplication` чаще всего более корректен для подсчёта `buyers`?
- Аналитик сложил `DAU` за 30 дней и получил 3 млн, а `MAU` за тот же месяц равен 400 тыс `unique users`. Почему это может быть нормально?
- Все вопросы по «Теория множеств и дедупликация» →