В отчёте: множество A = 400 тыс уникальных пользователей, множество B = 300 тыс уникальных пользователей. При этом заявлено, что объединение равно 900 тыс уникальных пользователей. Какая проверка адекватности по границам самая верная?
AЭто невозможно: по границам размер объединения должен лежать между нижней границей 400 тыс и верхней границей 700 тыс уникальных пользователей.
BЭто возможно, если пересечение между двумя множествами очень большое и при этом доля общих пользователей превышает половину каждого множества.
CЭто возможно, если перед расчётом выполнить дедупликацию по
event_id и пересобрать оба множества с учётом обновлённых правил агрегации.DЭто возможно, если пересечение равно нулю и добавить ещё один канал привлечения, чтобы расширить итоговое число уникальных пользователей.
Правильный ответ. Для двух множеств размер объединения имеет очевидные границы: не меньше максимума и не больше суммы.
Разбор
Нижняя граница объединения равна максимуму из размеров множеств, потому что объединение содержит как минимум самое большое из них. Верхняя граница равна сумме размеров множеств, и она достигается, когда пересечение пустое. Если отчёт нарушает эти границы, скорее всего перепутали единицы, ключ дедупликации или сложили метрики неправильно. Такая проверка адекватности быстро отсекает невозможные значения.
Проверь себя · 1/3разбор после ответа
Аналитик сложил
DAU за 30 дней и получил 3 млн, а MAU за тот же месяц равен 400 тыс уникальных пользователей. Почему это может быть нормально?Ещё вопросы по теме «Теория множеств и дедупликация»
- В таблице событий за день записано 2 млн строк, а в отчёте по аудитории видно 1.2 млн уникальных пользователей. Какое объяснение наиболее вероятно?
- В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
- В отчёте уникальные пользователи по каналам: email 200 тыс, push 150 тыс, sms 50 тыс. Сумма по строкам — 400 тыс, а общий итог по всем каналам — 260 тыс уникальных пользователей. Что это чаще всего означает?
- Чтобы посчитать число уникальных пользователей в объединении двух множеств `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу включения–исключения нужно использовать?
- Вы считаете число покупателей как уникальных пользователей за день. В данных есть `device_id` и `user_id` (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?
- Все вопросы по «Теория множеств и дедупликация» →