Аналитик переписал запрос, поменяв порядок таблиц в цепочке JOIN. Запрос стал выполняться быстрее. Почему это могло произойти?
AПорядок таблиц в
FROM строго определяет порядок соединения — первая таблица всегда ведущаяBОптимизатор PostgreSQL может изменить порядок
JOIN для улучшения производительностиCТаблицы всегда соединяются справа налево — последняя в списке обрабатывается первой
DПорядок
JOIN влияет на результат запроса — меняя его, можно получить другие строкиПравильный ответ. Оптимизатор PostgreSQL обычно сам выбирает оптимальный порядок соединения, но при большом числе таблиц может не найти лучший план — и ручная перестановка помогает.
Разбор
Для INNER JOIN порядок таблиц не влияет на результат — это коммутативная операция. Оптимизатор перебирает варианты порядка соединения и выбирает лучший план. Но при 8+ таблицах полный перебор отключается (параметр join_collapse_limit), и оптимизатор следует порядку из запроса. В этом случае ручная перестановка может улучшить план. Для OUTER JOIN порядок влияет на результат — их оптимизатор не переставляет.
Проверь себя · 1/3разбор после ответа
Без оконных функций нужно для каждого дня посчитать изменение выручки по сравнению с предыдущим днём. Таблица
daily_revenue содержит date и revenue. Как это сделать?Ещё вопросы по теме «JOIN и операции множеств»
- В отчёте нужно вывести всех пользователей и количество их заказов, включая тех, у кого заказов нет. Какой тип соединения между `users` и `orders` по `user_id` нужен?
- Нужно посчитать число пользователей, которые сделали хотя бы 1 заказ (таблицы `users(user_id)` и `orders(user_id, order_id)`). Какой запрос посчитает правильно?
- Вы соединили `orders` с `order_items` и `payments` по `order_id`, а затем посчитали `SUM(paid_amount)`. Сумма оказалась завышенной. Что вероятнее всего произошло и как исправить?
- Есть две таблицы с одинаковой схемой: `events_web(user_id, event_name, created_at)` и `events_app(user_id, event_name, created_at)`. Нужно получить общий поток событий для дальнейшей агрегации. Что использовать?
- Нужно получить уникальный список `user_id`, которые пришли из двух каналов: `campaign_a(user_id)` и `campaign_b(user_id)`. Как корректнее объединить списки, чтобы убрать дубликаты?
- Все вопросы по «JOIN и операции множеств» →