Для рекламной кампании у вас есть таблицы impressions и clicks (обе — журналы событий). Маркетинг спрашивает, сколько уникальных пользователей и видели рекламу, и кликнули по ней. Что нужно посчитать?
AСложить число уникальных
user_id в impressions и в clicks без вычитания общихBВзять объединение множеств
user_id из таблиц impressions и clicksCПосчитать общее число строк в таблице
clicks без дедупликации user_idDВзять пересечение множеств уникальных
user_id из impressions и clicksПравильный ответ. Число уникальных пользователей, сделавших оба действия, — это пересечение двух множеств
user_id после дедупликации в каждом источнике.Разбор
Сначала определите два множества: user_id из impressions и user_id из clicks. Затем найдите их пересечение, потому что вам нужны те, кто принадлежит обоим множествам. Сумма или объединение ответят на другой вопрос и будут завышены из-за отсутствия правильной дедупликации. Считать число строк в clicks тоже неверно — один пользователь может кликнуть несколько раз, и счётчик завысит охват.
Проверь себя · 1/3разбор после ответа
Чтобы посчитать число уникальных пользователей в объединении двух множеств
A и B, зная |A|, |B| и |A intersection B|, какую формулу включения–исключения нужно использовать?Ещё вопросы по теме «Теория множеств и дедупликация»
- В таблице событий за день записано 2 млн строк, а в отчёте по аудитории видно 1.2 млн уникальных пользователей. Какое объяснение наиболее вероятно?
- В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
- В отчёте уникальные пользователи по каналам: email 200 тыс, push 150 тыс, sms 50 тыс. Сумма по строкам — 400 тыс, а общий итог по всем каналам — 260 тыс уникальных пользователей. Что это чаще всего означает?
- Чтобы посчитать число уникальных пользователей в объединении двух множеств `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу включения–исключения нужно использовать?
- Вы считаете число покупателей как уникальных пользователей за день. В данных есть `device_id` и `user_id` (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?
- Все вопросы по «Теория множеств и дедупликация» →