Question 1

Нужно вывести список пользователей, которые сделали покупку в 2025 году, без дубликатов. Какой вариант делает это корректно без `DISTINCT`?

Accepted Answer

`EXISTS` проверяет наличие связанных строк и сохраняет по одной строке внешней таблицы — без `DISTINCT`. Если брать строки напрямую из таблицы заказов или соединять её с пользователями через `JOIN`, пользователь с несколькими заказами появится несколько раз — без `DISTINCT` или агрегации это даст дубликаты. Вариант с `GROUP BY` тоже опирается на агрегацию по заказам и работает не на уровне пользователей. Конструкция `EXISTS` проверяет наличие хотя бы одной связанной строки и не размножает строки внешней таблицы, поэтому возвращает каждого пользователя ровно один раз.

Question 2

Вы пишете `SELECT u.user_id, (SELECT order_id FROM orders o WHERE o.user_id = u.user_id) AS last_order_id FROM users u`. Что может пойти не так и как исправить, чтобы подзапрос стал скалярным?

Accepted Answer

Скалярный подзапрос в `SELECT` должен возвращать ровно одну строку и одну колонку для каждой строки внешнего запроса. Если подзапрос потенциально возвращает несколько строк (например, у пользователя несколько заказов), СУБД обычно выдаст ошибку «more than one row returned». Чтобы сделать подзапрос скалярным, нужно явно свести результат к одному значению: агрегатом (`MAX`/`MIN`) или ограничением (`LIMIT 1` вместе с явным правилом выбора).

Question 3

Нужно посчитать долю выручки каждого товара от общей выручки за один и тот же период. Какой вариант делает расчёт прозрачнее и избегает дублирования фильтра по периоду?

Accepted Answer

Базовый `CTE` помогает один раз зафиксировать период и правила отбора, а затем строить от него и числитель, и знаменатель. Доля — это отношение двух агрегатов, которые должны быть рассчитаны на одном и том же наборе строк. Если фильтр копируется в два места, легко ошибиться (период или условия различатся) и получить неконсистентную метрику. При подходе с `WITH base AS (...)` вы явно задаёте общий источник данных и используете его повторно, поэтому логика становится детерминированной и проверяемой. Скалярный подзапрос с дублированием фильтра хрупок, коррелированный подзапрос меняет смысл (фильтрует строки, а не считает долю), а перенос фильтра наружу разрывает контракт расчёта.

Question 4

В фильтре вы пишете `WHERE o.product_id = (SELECT product_id FROM featured_products)`, а в таблице `featured_products` несколько строк. Что верно?

Accepted Answer

Оператор `=` ожидает одно значение справа; если подзапрос возвращает набор, используйте `IN` или агрегируйте до одного значения. Подзапрос в правой части `=` обязан вернуть ровно одно значение. Если он возвращает несколько строк, большинство СУБД выдаёт ошибку. Если вы хотите проверить принадлежность множеству значений, используйте `IN`. Если по смыслу нужно именно одно значение, сделайте подзапрос скалярным — например, агрегатом `MAX` или `MIN` или явным ограничением результата.

Question 5

Нужно выбрать заказы, у которых `amount` выше среднего `amount` по тому же пользователю. Какой вариант `WHERE` корректно использует коррелированный подзапрос?

Accepted Answer

Коррелированный подзапрос ссылается на колонку внешнего запроса (например, `o.user_id`), поэтому среднее считается отдельно для каждого пользователя. В коррелированном варианте подзапрос ссылается на колонку внешней таблицы (`o.user_id`), поэтому среднее считается отдельно для каждой строки внешнего запроса — то есть для каждого пользователя. Некоррелированный подзапрос вычисляет одно глобальное значение и сравнивает его со всеми строками. Вариант с захардкоженным `user_id = 123` ограничивает сравнение одним пользователем, а вариант с `IN` ломается логически: `AVG(amount)` сравнивается с `user_id`, что бессмысленно по типу.

Вопросы по теме «Подзапросы и CTE»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: SQL