У вас число уникальных пользователей в web равно 500 тыс, в app равно 400 тыс, а общее объединение по user_id равно 700 тыс. Каков размер пересечения между web и app?

A200 тыс по формуле 500 + 400 - 700: дважды посчитанные пользователи в обоих источниках
B700 тыс по совпадению с объединением: оценка предполагает, что все пользователи web есть в app
C900 тыс по сумме 500 + 400: оценка предполагает пустое пересечение между источниками
D100 тыс по разности 500 - 400: оценка отождествляет пересечение с разницей размеров источников
Правильный ответ. Для двух множеств размер пересечения восстанавливается из объединения: |A ∩ B| = |A| + |B| - |A ∪ B|.

Разбор

Если известны размеры двух множеств и их объединение, то пересечение — это та часть, которую посчитали дважды при сложении. По формуле включений-исключений |A ∩ B| = |A| + |B| - |A ∪ B|, в нашем случае 500 + 400 - 700 = 200 тыс. Такие расчёты помогают объяснить, почему сумма уникальных пользователей по источникам не совпадает с общим числом уникальных пользователей. Это также полезная проверка здравого смысла на реалистичность доли пересечения.

Проверь себя · 1/3разбор после ответа
Чтобы посчитать число уникальных пользователей в объединении двух множеств A и B, зная |A|, |B| и |A intersection B|, какую формулу включения–исключения нужно использовать?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Теория множеств и дедупликация»