Запрос: SELECT u.id, SUM(o.amount), COUNT(r.id) FROM users u JOIN orders o ON o.user_id = u.id JOIN reviews r ON r.user_id = u.id GROUP BY u.id. У пользователя 3 заказа и 4 отзыва. Что не так и как исправить?
AКаскадное дублирование невозможно —
GROUP BY в конце запроса автоматически дедуплицирует все строкиBНужно добавить
DISTINCT внутрь SUM — SUM(DISTINCT o.amount) устранит все дубликаты корректноCНужно агрегировать каждую таблицу в подзапросе до
JOIN — соединять уже готовые агрегатыDНужно заменить
INNER JOIN на LEFT JOIN — внешнее соединение не создаёт дубликатовПравильный ответ. Два
JOIN «один ко многим» к одной таблице дают каскадный fan-out: 3 × 4 = 12 строк. SUM завышена в 4 раза, COUNT — в 3 раза. Решение — агрегировать в подзапросах до соединения.Разбор
Когда users соединяется с orders (3 строки) и с reviews (4 строки), получается 12 комбинаций для одного пользователя. SUM(o.amount) считает каждый заказ 4 раза, COUNT(r.id) — каждый отзыв 3 раза. SUM(DISTINCT) не поможет, если суммы заказов совпадают. Правильный подход: JOIN (SELECT user_id, SUM(amount) ... GROUP BY user_id) o — агрегировать заказы и отзывы по отдельности в подзапросах, затем соединять.
Проверь себя · 1/3разбор после ответа
Нужно посчитать число пользователей, которые сделали хотя бы 1 заказ (таблицы
users(user_id) и orders(user_id, order_id)). Какой запрос посчитает правильно?Ещё вопросы по теме «JOIN и операции множеств»
- В отчёте нужно вывести всех пользователей и количество их заказов, включая тех, у кого заказов нет. Какой тип соединения между `users` и `orders` по `user_id` нужен?
- Нужно посчитать число пользователей, которые сделали хотя бы 1 заказ (таблицы `users(user_id)` и `orders(user_id, order_id)`). Какой запрос посчитает правильно?
- Вы соединили `orders` с `order_items` и `payments` по `order_id`, а затем посчитали `SUM(paid_amount)`. Сумма оказалась завышенной. Что вероятнее всего произошло и как исправить?
- Есть две таблицы с одинаковой схемой: `events_web(user_id, event_name, created_at)` и `events_app(user_id, event_name, created_at)`. Нужно получить общий поток событий для дальнейшей агрегации. Что использовать?
- Нужно получить уникальный список `user_id`, которые пришли из двух каналов: `campaign_a(user_id)` и `campaign_b(user_id)`. Как корректнее объединить списки, чтобы убрать дубликаты?
- Все вопросы по «JOIN и операции множеств» →