У вас три множества для трёх кампаний: известны |A|, |B|, |C| и все парные пересечения, но тройное пересечение неизвестно. Что корректнее всего сделать, если нужно оценить объединение без доступа к сырым данным?
AПосчитать объединение по формуле
|A| + |B| + |C| и игнорировать парные пересечения, потому что при крупных кампаниях вклад пересечений всегда малBПо принципу включения–исключения признать неопределённость тройного пересечения
|A∩B∩C| и дать границы для объединения или запросить пересчёт по сырым даннымCВзять среднее значений
|A|, |B|, |C| и считать его оценкой объединения трёх кампаний, потому что среднее ближе всего к истинному размеру охватаDВыбрать максимум из
|A|, |B|, |C| и считать его объединением, потому что вклад тройного пересечения всё равно сам исправит расхождения с реальностьюПравильный ответ. Для трёх множеств точное объединение по принципу включения–исключения требует тройного пересечения, иначе остаются только границы.
Разбор
Парные пересечения недостаточны, потому что тройное пересечение влияет на итог через знак плюс в формуле включения–исключения. Без него вы можете построить только диапазон возможных значений объединения, используя нижнюю и верхнюю границы для тройного пересечения. В продуктовой аналитике важно явно проговаривать такие допущения, чтобы не выдавать оценку за точный факт. Лучший вариант — запросить расчёт тройного пересечения по сырым данным.
Проверь себя · 1/3разбор после ответа
В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
Ещё вопросы по теме «Теория множеств и дедупликация»
- В таблице событий за день записано 2 млн строк, а в отчёте по аудитории видно 1.2 млн уникальных пользователей. Какое объяснение наиболее вероятно?
- В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
- В отчёте уникальные пользователи по каналам: email 200 тыс, push 150 тыс, sms 50 тыс. Сумма по строкам — 400 тыс, а общий итог по всем каналам — 260 тыс уникальных пользователей. Что это чаще всего означает?
- Чтобы посчитать число уникальных пользователей в объединении двух множеств `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу включения–исключения нужно использовать?
- Вы считаете число покупателей как уникальных пользователей за день. В данных есть `device_id` и `user_id` (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?
- Все вопросы по «Теория множеств и дедупликация» →