Для рекламной кампании у вас есть таблицы impressions и clicks (обе — журналы событий). Маркетинг спрашивает, сколько уникальных пользователей и видели рекламу, и кликнули по ней. Что нужно посчитать?

AСложить число уникальных user_id в impressions и в clicks без вычитания общих
BВзять объединение множеств user_id из таблиц impressions и clicks
CПосчитать общее число строк в таблице clicks без дедупликации user_id
DВзять пересечение множеств уникальных user_id из impressions и clicks
Правильный ответ. Число уникальных пользователей, сделавших оба действия, — это пересечение двух множеств user_id после дедупликации в каждом источнике.

Разбор

Сначала определите два множества: user_id из impressions и user_id из clicks. Затем найдите их пересечение, потому что вам нужны те, кто принадлежит обоим множествам. Сумма или объединение ответят на другой вопрос и будут завышены из-за отсутствия правильной дедупликации. Считать число строк в clicks тоже неверно — один пользователь может кликнуть несколько раз, и счётчик завысит охват.

Проверь себя · 1/3разбор после ответа
Чтобы посчитать число уникальных пользователей в объединении двух множеств A и B, зная |A|, |B| и |A intersection B|, какую формулу включения–исключения нужно использовать?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Теория множеств и дедупликация»