Question 1

Вы ищете пользователей без заказов запросом `SELECT u.user_id FROM users u WHERE u.user_id NOT IN (SELECT o.user_id FROM orders o)`. Почему он может вернуть 0 строк и какой подход безопаснее?

Accepted Answer

`NOT EXISTS` проверяет отсутствие связанных строк, а `NOT IN` чувствителен к `NULL` в списке значений и может обнулить выборку. В трёхзначной логике SQL выражение `x NOT IN (...)` становится `UNKNOWN`, если в списке есть `NULL`, даже когда явного совпадения нет. В `WHERE` это означает, что строка не пройдёт фильтр, и итог может оказаться пустым. `NOT EXISTS` формулирует задачу иначе: «нет ни одной строки, удовлетворяющей связи и условию», и поэтому надёжнее для анти-джойна. Замены через `<>` или `ORDER BY` проблему `NULL` не решают.

Question 2

Нужно выбрать пользователей, у которых число заказов выше среднего по всем пользователям. Какой запрос корректно считает «среднее по пользователям», а не «среднее по заказам»?

Accepted Answer

Нужно сначала агрегировать заказы до уровня пользователя, а затем считать среднее уже по этому уровню. Среднее по пользователям означает: для каждого пользователя считаем `COUNT(*)`, получаем таблицу «пользователь → число заказов», и только потом берём `AVG` по этим значениям. Если пытаться посчитать среднее напрямую по таблице `orders`, легко перепутать уровень данных и получить другую метрику (например, среднее по строкам заказов). CTE помогает явно зафиксировать нужную гранулярность.

Question 3

Вы хотите вывести по каждому пользователю `orders_cnt` и `last_order_dt`. Какой вариант обычно проще читать и расширять новыми метриками?

Accepted Answer

Предагрегация в CTE делает уровни данных явными: одна строка на `user_id`, дальше присоединение к users. Несколько скалярных подзапросов в `SELECT` быстро превращаются в трудночитаемый набор «встроенных» расчётов и плохо расширяются. Если агрегировать факты в одном CTE, гранулярность фиксируется явно: одна строка на пользователя, и новые поля добавляются в одном месте без вложенности. Промежуточный CTE удобно проверить отдельно, что снижает риск ошибок. Постобработка в Python/Excel или вторая выгрузка с `IN` усложняют поддержку и неэффективны.

Question 4

Нужно посчитать средний дневной доход: сначала `SUM(amount)` по каждому дню, затем `AVG` по дням. Какой запрос соответствует этой логике?

Accepted Answer

Для «агрегации над агрегацией» удобно вынести первый уровень в подзапрос в `FROM` (или CTE), а затем агрегировать второй раз. Средний дневной доход — это среднее по дням, а не среднее по платежам. Поэтому сначала нужно получить таблицу «день → выручка дня» (через `GROUP BY pay_date`), и только потом считать `AVG` по этим дневным суммам. Подзапрос в `FROM` делает уровни агрегации явными и уменьшает вероятность перепутать метрику. Вариант с `AVG(SUM(...))` без подзапроса не работает; `AVG(amount)` и `SUM/COUNT` дают среднее по платежам, а не по дням.

Question 5

В отчёте нужно посчитать выручку по странам пользователей только по оплаченным заказам за период, причём шаг «оплаченные за период» используется ещё в трёх соседних метриках. Какой подход обычно делает запрос проверяемее и позволяет переиспользовать фильтрацию?

Accepted Answer

`WITH` (CTE) позволяет вынести общий шаг (например, фильтрацию оплаченных заказов) в именованный блок и использовать его дальше как таблицу. Когда один и тот же набор строк нужен нескольким частям запроса, CTE помогает избежать дублирования условий: фильтры пишутся один раз, а затем используются в финальном `SELECT`. Это повышает читаемость и снижает шанс, что фильтры «разъедутся» между метриками. Плюс промежуточный шаг легко проверить отдельно, выполнив CTE как самостоятельный запрос.

Подзапросы и CTE: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: SQL