Question 1

Какое утверждение лучше всего описывает коррелированный подзапрос?

Accepted Answer

Корреляция появляется, когда подзапрос использует алиасы или колонки из внешнего запроса. Некоррелированный подзапрос можно выполнить «сам по себе» и получить один результат или набор. Коррелированный зависит от текущей строки внешнего запроса: в нём есть ссылка на внешний алиас (например, `o.user_id`), поэтому логически он пересчитывается для каждой внешней строки. Это важно понимать, чтобы не забыть условие связи и не получить неверный результат.

Question 2

Вы выбираете пользователей, у которых есть хотя бы один платёж. В таблице `payments` поле `user_id` иногда бывает `NULL` (например, анонимные платежи). Почему в такой ситуации часто предпочитают `EXISTS`, а не `IN`?

Accepted Answer

`EXISTS` отвечает на вопрос «есть ли подходящая строка», а `IN` сравнивает значения и может дать `UNKNOWN`, если список содержит `NULL`. Предикат `x IN (subquery)` использует трёхзначную логику: если прямого совпадения нет, но в наборе есть `NULL`, результат может стать `UNKNOWN`, и строка не пройдёт фильтр. `EXISTS` не сравнивает значения и потому не «ломается» из-за `NULL`: он просто проверяет, есть ли хотя бы одна строка, удовлетворяющая условиям корреляции. Утверждения про полную эквивалентность, автоматический отброс `NULL` или возврат `TRUE` от `NULL` неверно описывают семантику `IN`.

Question 3

Нужно найти пользователей, чей самый ранний заказ (то есть `MIN(created_at)`) попадает в 2024 год. Какой вариант корректен?

Accepted Answer

Сначала вычислите `MIN(created_at)` на уровне пользователя, а потом фильтруйте пользователей по году — это удобно делать через CTE. Если просто отфильтровать `orders` по 2024 году, найдутся пользователи с любым заказом в 2024, но их первый заказ мог быть раньше. Правильная логика: получить по каждому `user_id` дату первого заказа, затем оставить тех, у кого эта дата лежит в нужном диапазоне. CTE делает этот двухшаговый расчёт понятным. Вариант с глобальным `MIN(created_at)` найдёт только пользователей с самой ранней датой во всей таблице, а сравнение `user_id` с датой через `IN` логически некорректно: типы не совпадают.

Question 4

Вы разбираете сложный отчёт коллеги: 4 уровня вложенных подзапросов в `FROM` без имён шагов. Решаете переписать через `WITH`. Какое практическое преимущество даёт CTE по сравнению с вложенными подзапросами?

Accepted Answer

`WITH` улучшает читаемость: вы именуете шаги и можете запускать их по отдельности для проверки. CTE превращает сложную логику в последовательность небольших шагов: фильтрация, обогащение, агрегация. Это снижает когнитивную нагрузку и помогает обнаруживать ошибки раньше, например неправильную гранулярность или лишние строки. Кроме того, если один и тот же шаг нужен дважды, его можно переиспользовать без копирования условий. Утверждения про точность, запрет `NULL` или гарантированное ускорение — мифы, которые часто повторяют новички.

Question 5

Нужно вывести по каждому заказу признак `has_refund`: есть ли хотя бы одна запись в `refunds` по этому заказу. Таблица `refunds` может иметь несколько строк на один заказ. Какой вариант корректен и не размножает заказы?

Accepted Answer

`EXISTS` внутри `CASE` даёт один логический ответ на строку `orders` и не создаёт дубликаты строк. `LEFT JOIN` к таблице `refunds` без агрегации размножает строки заказов, если по заказу несколько возвратов; добавление `COUNT()` без `GROUP BY` приведёт к ошибке. Скалярный подзапрос упадёт при нескольких строках на заказ. `INNER JOIN` с `MAX()` без `GROUP BY` тоже неверен и заодно отбросит заказы без возвратов. Конструкция `CASE WHEN EXISTS (...) THEN 1 ELSE 0 END` явно проверяет наличие связанной строки и всегда возвращает одно значение на заказ.

Подзапросы и CTE: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: SQL