У пользователя может быть несколько заказов в orders и несколько возвратов в refunds. Вы соединили orders и refunds по user_id и посчитали SUM(refund_amount). Что наиболее вероятно произойдёт с суммой и почему?
AСумма не изменится, потому что
SUM() устойчив к duplicationBСумма станет меньше, потому что
INNER JOIN удалит часть возвратовCСумма станет равна числу пользователей, потому что
COUNT(*) и SUM() эквивалентныDСумма завысится: получится
many-to-many по user_id, возникнет join explosion, и каждый возврат повторится для каждого заказаПравильный ответ. Когда обе стороны имеют несколько строк на
user_id, JOIN становится many-to-many и раздувает SUM() из-за duplication.Разбор
Внутри пользователя заказы и возвраты комбинируются, образуя пары «каждый с каждым». В результате один и тот же возврат попадает в несколько строк и учитывается несколько раз в SUM(refund_amount). Чтобы исправить, нужно pre-aggregate одну из сторон до user_id или соединять по более точному ключу, например order_id.
Проверь себя · 1/3разбор после ответа
Для одного
order_id в order_items есть 3 строки, а в payments есть 2 строки. Вы соединили всё в одну таблицу по order_id без предварительной агрегации. Сколько строк получится для этого заказа и почему?Ещё вопросы по теме «JOIN и кардинальность»
- В таблице `users` 100 000 строк, в таблице `user_profiles` — ровно одна строка на каждого `user_id`. Вы делаете `INNER JOIN` по `user_id`. Что верно про число строк результата?
- Вы соединяете `users` и `orders` по `user_id`, где у пользователя может быть много заказов (`one-to-many`). Как посчитать число пользователей, которые сделали хотя бы один заказ, чтобы избежать `duplication`?
- Для одного `order_id` в `order_items` есть 3 строки, а в `payments` есть 2 строки. Вы соединили всё в одну таблицу по `order_id` без предварительной агрегации. Сколько строк получится для этого заказа и почему?
- Нужен датасет на уровне `user_id`: выручка из `orders` и число сессий из `sessions`. В обеих таблицах по пользователю много строк (`one-to-many`). Какой подход минимизирует риск `join explosion`?
- Вы хотели посчитать средний чек по заказам как `AVG(order_total)`. Но перед этим соединили `orders` с `order_items` по `order_id` (`one-to-many`). Почему `AVG()` может измениться по сравнению с расчётом на таблице `orders`?
- Все вопросы по «JOIN и кардинальность» →