У вас три set для трёх campaign: известны |A|, |B|, |C| и все парные intersection, но тройная intersection неизвестна. Что корректнее всего сделать, если нужно оценить union без доступа к сырым данным?
AПосчитать
union как |A| + |B| + |C| и игнорировать overlap.BИспользовать принцип
включение–исключение, но признать неопределённость тройной intersection и дать границы для union (или запросить тройную intersection).CВзять среднее из
|A|, |B|, |C| и назвать это union.DВыбрать максимальный
set и считать его union, потому что intersection всё исправит.Правильный ответ. Для трёх
set точный union по включение–исключение требует тройной intersection, иначе остаются только границы.Разбор
Парные intersection недостаточны, потому что тройной overlap влияет на итог через плюс в формуле включение–исключение. Без него вы можете построить диапазон возможных значений union, используя нижняя граница и верхняя граница для тройной intersection. В продуктовой аналитике важно явно проговаривать такие assumptions, чтобы не выдавать оценку за точный факт. Лучший вариант — запросить расчёт тройной intersection по сырым данным.
Проверь себя · 1/3разбор после ответа
Аналитик сложил
DAU за 30 дней и получил 3 млн, а MAU за тот же месяц равен 400 тыс unique users. Почему это может быть нормально?Ещё вопросы по теме «Теория множеств и дедупликация»
- В `events` за день 2 млн `events`, а в отчёте по `audience` 1.2 млн `unique users`. Какое объяснение наиболее вероятно?
- В `channel` `search` 400 тыс `unique users`, в `channel` `social` 300 тыс `unique users`, а `overlap` (`intersection`) между ними 100 тыс `unique users`. Сколько `unique users` в `union` этих двух `set`?
- В отчёте вы видите `unique users` по `channel`: `email` 200 тыс, `push` 150 тыс, `sms` 50 тыс. Сумма по строкам 400 тыс, но общий итог по всем `channel` показывает 260 тыс `unique users`. Что это чаще всего означает?
- Чтобы посчитать `unique users` в `union` двух `set` `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу `включение–исключение` нужно использовать?
- Вы считаете число `buyers` как `unique users` за день. В данных есть `device_id` и `user_id` (если `user` залогинен). Какой подход к `deduplication` чаще всего более корректен для подсчёта `buyers`?
- Все вопросы по «Теория множеств и дедупликация» →