Аналитик сложил DAU за 30 дней и получил 3 млн, а MAU за тот же месяц равен 400 тыс unique users. Почему это может быть нормально?
AПотому что
MAU всегда равен сумме DAU по дням.BПотому что сумма
DAU не делает deduplication между днями, а MAU — это union unique users за месяц.CПотому что
DAU считает events, а MAU считает impressions.DПотому что
intersection между днями всегда равна 0.Правильный ответ. Сумма
DAU по дням двойно считает overlap пользователей между днями, а MAU считает union.Разбор
Один и тот же user_id может быть активен много дней подряд, и тогда он попадёт в каждый дневной set DAU. Сложение дневных значений не учитывает intersection между днями и завышает итог. MAU — это deduplication по user_id на уровне месяца, то есть union всех дневных set.
Проверь себя · 1/3разбор после ответа
Для
campaign у вас есть таблицы impressions и clicks (оба — events). Маркетинг спрашивает, сколько unique users и видели, и кликали. Что нужно посчитать?Ещё вопросы по теме «Теория множеств и дедупликация»
- В `events` за день 2 млн `events`, а в отчёте по `audience` 1.2 млн `unique users`. Какое объяснение наиболее вероятно?
- В `channel` `search` 400 тыс `unique users`, в `channel` `social` 300 тыс `unique users`, а `overlap` (`intersection`) между ними 100 тыс `unique users`. Сколько `unique users` в `union` этих двух `set`?
- В отчёте вы видите `unique users` по `channel`: `email` 200 тыс, `push` 150 тыс, `sms` 50 тыс. Сумма по строкам 400 тыс, но общий итог по всем `channel` показывает 260 тыс `unique users`. Что это чаще всего означает?
- Чтобы посчитать `unique users` в `union` двух `set` `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу `включение–исключение` нужно использовать?
- Вы считаете число `buyers` как `unique users` за день. В данных есть `device_id` и `user_id` (если `user` залогинен). Какой подход к `deduplication` чаще всего более корректен для подсчёта `buyers`?
- Все вопросы по «Теория множеств и дедупликация» →