В таблице событий за день записано 2 млн строк, а в отчёте по аудитории видно 1.2 млн уникальных пользователей. Какое объяснение наиболее вероятно?

AОдин и тот же user_id генерирует много событий: записей событий обычно больше, чем уникальных пользователей за период
BПосле удаления дубликатов количество событий должно стать равным числу уникальных пользователей за тот же период
CУникальные пользователи считаются как пересечение двух множеств: их число оказывается меньше числа событий по определению
DУникальные пользователи это объединение всех событий: разница между этими числами быть не должна
Правильный ответ. Число событий и число уникальных пользователей измеряют разные единицы и не обязаны совпадать между собой.

Разбор

В таблице событий один user_id может встречаться много раз, поэтому счётчик строк растёт быстрее, чем счётчик пользователей. Метрика уникальных пользователей делает удаление дубликатов по user_id и считает каждого один раз за период. Такая проверка здравого смысла помогает не перепутать объём событий с размером аудитории.

Проверь себя · 1/3разбор после ответа
Маркетинг просит сегмент уникальных пользователей, которые являются покупателями продукта A и покупателями продукта B за месяц. Какая операция над множествами покупателей соответствует запросу?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Теория множеств и дедупликация»