Чтобы посчитать число уникальных пользователей в объединении двух множеств A и B, зная |A|, |B| и |A intersection B|, какую формулу включения–исключения нужно использовать?
A
|A union B| = |A| + |B| + |A intersection B|B
|A union B| = |A| - |B| - |A intersection B|C
|A union B| = |A| * |B| / |A intersection B|D
|A union B| = |A| + |B| - |A intersection B|Правильный ответ. Для двух множеств принцип включения–исключения требует вычесть пересечение, чтобы убрать двойной счёт пересекающихся элементов.
Разбор
Каждый пользователь из пересечения попадает и в A, и в B, поэтому при суммировании он считается дважды. Вычитание |A intersection B| возвращает правильный размер объединения. Эта формула лежит в основе многих задач про уникальных пользователей по нескольким источникам.
Проверь себя · 1/3разбор после ответа
В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
Ещё вопросы по теме «Теория множеств и дедупликация»
- В таблице событий за день записано 2 млн строк, а в отчёте по аудитории видно 1.2 млн уникальных пользователей. Какое объяснение наиболее вероятно?
- В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
- В отчёте уникальные пользователи по каналам: email 200 тыс, push 150 тыс, sms 50 тыс. Сумма по строкам — 400 тыс, а общий итог по всем каналам — 260 тыс уникальных пользователей. Что это чаще всего означает?
- Вы считаете число покупателей как уникальных пользователей за день. В данных есть `device_id` и `user_id` (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?
- Аналитик сложил `DAU` за 30 дней и получил 3 млн, а `MAU` за тот же месяц равен 400 тыс уникальных пользователей. Почему это может быть нормально?
- Все вопросы по «Теория множеств и дедупликация» →