Question 1

В столбце `amount` значения `10`, `20`, `NULL`, `30`, `NULL`. Чему равны `SUM(amount)` и `AVG(amount)`?

Accepted Answer

Обе функции игнорируют `NULL`: `SUM` вернёт `60`, а `AVG` разделит `60` на `3` и вернёт `20`. По стандарту SQL агрегатные функции `SUM`, `AVG`, `MIN`, `MAX` пропускают `NULL`. `SUM` вернёт `10+20+30=60`. `AVG` разделит `60` на `3` (не на `5`) и вернёт `20`. Если нужно учитывать `NULL` как ноль, используют `AVG(COALESCE(amount, 0))` — тогда знаменатель будет `5`, а результат `12`.

Question 2

Нужно получить список пользователей, у которых суммарная сумма завершённых заказов больше 1000. Таблица `orders(user_id, amount, status)`, завершённые заказы имеют `status = 'done'`. Какой запрос корректен?

Accepted Answer

`WHERE` фильтрует строки, `HAVING` — агрегированные группы. Чтобы учесть только завершённые заказы, сначала фильтруем их в `WHERE status = 'done'`, затем группируем по пользователю и отбираем группы по сумме через `HAVING SUM(amount) > 1000`. Корректный шаблон: `SELECT user_id, SUM(amount) FROM orders WHERE status = 'done' GROUP BY user_id HAVING SUM(amount) > 1000;`.

Question 3

Запрос: `SELECT country, COUNT(DISTINCT user_id) FROM events GROUP BY country`. Таблица содержит повторяющиеся строки. Что посчитает функция?

Accepted Answer

`COUNT(DISTINCT col)` внутри `GROUP BY` считает уникальные значения столбца отдельно в каждой группе, а не по всей таблице. `COUNT(DISTINCT expr)` всегда работает в границах текущей группы. При группировке по стране уникальные `user_id` считаются отдельно для каждой страны. Если пользователь совершил события в двух странах, он будет засчитан в обеих группах — это ожидаемое поведение, а не ошибка. Никакого запрета на сочетание `DISTINCT` и `GROUP BY` нет.

Question 4

Что произойдёт в СУБД, строго следующей стандарту SQL, при выполнении запроса `SELECT user_id, created_at, COUNT(*) FROM orders GROUP BY user_id;`?

Accepted Answer

Все неагрегированные колонки из `SELECT` должны входить в `GROUP BY`. В стандартном SQL любая колонка, указанная в списке `SELECT` и не обёрнутая агрегатной функцией (`COUNT`, `SUM` и т.д.), должна быть перечислена в `GROUP BY`. Иначе запрос считается некорректным и завершается ошибкой. Некоторые СУБД (например, MySQL в нестрогом режиме) могут вернуть произвольное значение из группы, но это нестандартное поведение. Автоматическое добавление колонок в `GROUP BY` или замена на `NULL` стандартом не предусмотрены.

Question 5

Аналитик пишет: `SELECT o.user_id, SUM(o.amount) FROM orders o JOIN order_items i ON i.order_id = o.id GROUP BY o.user_id`. У одного заказа несколько позиций. Что произойдёт с суммой?

Accepted Answer

При `JOIN` «один ко многим» строка заказа дублируется по числу позиций, и `SUM(o.amount)` завышает итог. Это классическая ошибка агрегации с `JOIN`. Если у заказа 3 позиции, `JOIN` порождает 3 строки с одинаковым `o.amount`, и `SUM` сложит сумму трижды — итог утроится. Решения: агрегировать `order_items` в подзапросе или `CTE` до `JOIN`; использовать `SUM(DISTINCT o.amount)` с осторожностью; или применять `COUNT(DISTINCT o.id)` для подсчёта заказов. Сама `GROUP BY` не дедуплицирует строки — она только группирует уже существующие.

Агрегация, GROUP BY и HAVING: вопросы для собеседования (часть 4)

Вопросы 16–20 из 32

Хотите тренировать интерактивно?

Другие темы: SQL