В таблице событий за день записано 2 млн строк, а в отчёте по аудитории видно 1.2 млн уникальных пользователей. Какое объяснение наиболее вероятно?
AОдин и тот же
user_id генерирует много событий: записей событий обычно больше, чем уникальных пользователей за периодBПосле удаления дубликатов количество событий должно стать равным числу уникальных пользователей за тот же период
CУникальные пользователи считаются как пересечение двух множеств: их число оказывается меньше числа событий по определению
DУникальные пользователи это объединение всех событий: разница между этими числами быть не должна
Правильный ответ. Число событий и число уникальных пользователей измеряют разные единицы и не обязаны совпадать между собой.
Разбор
В таблице событий один user_id может встречаться много раз, поэтому счётчик строк растёт быстрее, чем счётчик пользователей. Метрика уникальных пользователей делает удаление дубликатов по user_id и считает каждого один раз за период. Такая проверка здравого смысла помогает не перепутать объём событий с размером аудитории.
Проверь себя · 1/3разбор после ответа
Маркетинг просит сегмент уникальных пользователей, которые являются покупателями продукта
A и покупателями продукта B за месяц. Какая операция над множествами покупателей соответствует запросу?Ещё вопросы по теме «Теория множеств и дедупликация»
- В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
- В отчёте уникальные пользователи по каналам: email 200 тыс, push 150 тыс, sms 50 тыс. Сумма по строкам — 400 тыс, а общий итог по всем каналам — 260 тыс уникальных пользователей. Что это чаще всего означает?
- Чтобы посчитать число уникальных пользователей в объединении двух множеств `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу включения–исключения нужно использовать?
- Вы считаете число покупателей как уникальных пользователей за день. В данных есть `device_id` и `user_id` (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?
- Аналитик сложил `DAU` за 30 дней и получил 3 млн, а `MAU` за тот же месяц равен 400 тыс уникальных пользователей. Почему это может быть нормально?
- Все вопросы по «Теория множеств и дедупликация» →