У вас три set для трёх campaign: известны |A|, |B|, |C| и все парные intersection, но тройная intersection неизвестна. Что корректнее всего сделать, если нужно оценить union без доступа к сырым данным?

AПосчитать union как |A| + |B| + |C| и игнорировать overlap.
BИспользовать принцип включение–исключение, но признать неопределённость тройной intersection и дать границы для union (или запросить тройную intersection).
CВзять среднее из |A|, |B|, |C| и назвать это union.
DВыбрать максимальный set и считать его union, потому что intersection всё исправит.
Правильный ответ. Для трёх set точный union по включение–исключение требует тройной intersection, иначе остаются только границы.

Разбор

Парные intersection недостаточны, потому что тройной overlap влияет на итог через плюс в формуле включение–исключение. Без него вы можете построить диапазон возможных значений union, используя нижняя граница и верхняя граница для тройной intersection. В продуктовой аналитике важно явно проговаривать такие assumptions, чтобы не выдавать оценку за точный факт. Лучший вариант — запросить расчёт тройной intersection по сырым данным.

Проверь себя · 1/3разбор после ответа
Аналитик сложил DAU за 30 дней и получил 3 млн, а MAU за тот же месяц равен 400 тыс unique users. Почему это может быть нормально?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Теория множеств и дедупликация»