Вы строите выручку по каналу: соединяете `sessions(user_id, channel)` и `orders(user_id, revenue)` по `user_id`, затем считаете `SUM(revenue)` по `channel`. Получившаяся выручка сильно больше бухгалтерской. Что наиболее вероятно и что делать?

Question

Карьерник · Accepted Answer

Правильный ответ: Это many-to-many дублирование строк: выручка размножается на сессиях, нужна предварительная агрегация до уровня заказа. Соединение двух `one-to-many` источников по `user_id` даёт `many-to-many` и ломает денежные метрики из-за `duplication`. Каждый заказ пользователя матчится на каждую его сессию, поэтому один и тот же `revenue` учитывается много раз в `SUM()`. `distinct` может случайно скрыть часть дублей и сломать данные по-другому, поэтому это плохой костыль. Правильный путь — определить целевой уровень данных, `pre-aggregate` до него и затем соединять.

Разбор

Ещё вопросы по теме «JOIN и кардинальность»