Три способа найти пользователей без заказов: LEFT JOIN + IS NULL, NOT EXISTS, NOT IN. Столбец orders.user_id содержит NULL-значения. Какой подход даст неожиданный результат?
AВсе три подхода всегда возвращают одинаковый результат независимо от данных в таблицах
BТолько
LEFT JOIN + IS NULL корректно обработает NULL — остальные два способа дадут ошибкуC
NOT IN вернёт пустой результат, если в orders.user_id есть хотя бы один NULLDТолько
NOT EXISTS вернёт пустой результат при наличии NULL в orders.user_idПравильный ответ.
NOT IN при наличии NULL в подзапросе вернёт пустой набор, потому что сравнение с NULL даёт UNKNOWN, и ни одна строка не проходит фильтр.Разбор
Выражение x NOT IN (1, 2, NULL) раскрывается в x<>1 AND x<>2 AND x<>NULL. Последнее сравнение всегда даёт UNKNOWN, а TRUE AND UNKNOWN = UNKNOWN — ни одна строка не пройдёт. NOT EXISTS и LEFT JOIN + IS NULL не страдают от этой проблемы: они проверяют наличие строки, а не равенство значений. Рекомендация: для анти-соединений избегать NOT IN, если в подзапросе возможны NULL.
Проверь себя · 1/3разбор после ответа
Нужно вывести пользователей, у которых есть хотя бы один заказ. У каждого пользователя может быть много заказов. Какой способ не создаст дублирование строк?
Ещё вопросы по теме «JOIN и операции множеств»
- В отчёте нужно вывести всех пользователей и количество их заказов, включая тех, у кого заказов нет. Какой тип соединения между `users` и `orders` по `user_id` нужен?
- Нужно посчитать число пользователей, которые сделали хотя бы 1 заказ (таблицы `users(user_id)` и `orders(user_id, order_id)`). Какой запрос посчитает правильно?
- Вы соединили `orders` с `order_items` и `payments` по `order_id`, а затем посчитали `SUM(paid_amount)`. Сумма оказалась завышенной. Что вероятнее всего произошло и как исправить?
- Есть две таблицы с одинаковой схемой: `events_web(user_id, event_name, created_at)` и `events_app(user_id, event_name, created_at)`. Нужно получить общий поток событий для дальнейшей агрегации. Что использовать?
- Нужно получить уникальный список `user_id`, которые пришли из двух каналов: `campaign_a(user_id)` и `campaign_b(user_id)`. Как корректнее объединить списки, чтобы убрать дубликаты?
- Все вопросы по «JOIN и операции множеств» →