В отчёте уникальные пользователи по каналам: email 200 тыс, push 150 тыс, sms 50 тыс. Сумма по строкам — 400 тыс, а общий итог по всем каналам — 260 тыс уникальных пользователей. Что это чаще всего означает?

AВ итоговой строке ошибка: общий итог обязан быть равен сумме по каналам, иначе данные собраны неверно или разрезы построены некорректно
BОдин и тот же пользователь попадает в несколько каналов, поэтому сумма по строкам двойно считает пересечения, а итог делает дедупликацию по уникальным пользователям
CВ отчёте перепутан знаменатель: нужно делить сумму по каналам на их количество, чтобы получить корректное среднее число уникальных пользователей
DПересечений между каналами нет, поэтому итог обязан быть строго больше суммы по строкам, и при равенстве данные собраны с ошибкой
Правильный ответ. Суммирование по каналам обычно двойно считает пересечения, а общий итог считает объединение после дедупликации.

Разбор

Один и тот же user_id мог попасть сразу в несколько каналов, поэтому он окажется в нескольких строках. Общая строка обычно строится как объединение по всем каналам и делает дедупликацию на уровне уникальных пользователей. Поэтому несхождение суммы и итога — нормальный сигнал наличия пересечений, а не баг. Версия с обязательным равенством или с делением суммы на число каналов опирается на ошибочное представление о пересечениях.

Проверь себя · 1/3разбор после ответа
Для метрики удержания вы определяете множество A — уникальные пользователи, активные в неделю 1, и множество B — уникальные пользователи, активные в неделю 2. Какое множество соответствует вернувшимся пользователям?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Теория множеств и дедупликация»