Question 1

Нужно сгруппировать события по календарному месяцу в PostgreSQL, чтобы все дни одного месяца попали в одну группу. Какой подход правильный?

Accepted Answer

`DATE_TRUNC('month', ts)` усекает метку до `YYYY-MM-01 00:00:00` — все дни одного месяца принимают одно значение и попадают в одну группу. `DATE_TRUNC(unit, timestamp)` возвращает метку времени, усечённую до указанной единицы. `DATE_TRUNC('month', ts)` превращает любую дату месяца в `YYYY-MM-01 00:00:00`. `EXTRACT(month FROM ts)` возвращает только номер месяца 1–12 и смешивает разные годы — январь 2023 и январь 2024 окажутся в одной группе. `CAST(ts AS DATE)` группирует по дням, а не месяцам.

Question 2

Как `GROUP BY` обрабатывает значения `NULL` в столбце группировки?

Accepted Answer

Все строки с `NULL` в столбце группировки попадают в одну общую группу. При выполнении `GROUP BY` значения `NULL` считаются равными друг другу. Поэтому все строки, где значение колонки равно `NULL`, объединяются в одну группу, точно так же, как одинаковые ненулевые значения. Это важная особенность: в обычных сравнениях `NULL = NULL` даёт `UNKNOWN`, но `GROUP BY` ведёт себя иначе.

Question 3

Нужно получить по каждому менеджеру число выполненных и число отменённых заказов в одной строке результата. Какой подход позволяет это сделать?

Accepted Answer

Условная агрегация через `SUM(CASE WHEN ... THEN 1 END)` внутри `GROUP BY` даёт две колонки в одной строке. Условная агрегация через `SUM(CASE WHEN ... THEN 1 ELSE 0 END)` или `COUNT(CASE WHEN ... THEN 1 END)` позволяет считать строки по нескольким условиям одновременно внутри одного `GROUP BY`-запроса. Это избавляет от необходимости писать несколько отдельных подзапросов или `JOIN`-ов к одной таблице. В PostgreSQL аналогичный результат даёт синтаксис `FILTER (WHERE ...)`.

Question 4

Нужно получить количество заказов по паре (`user_id`, `status`) из таблицы `orders`. Какой запрос верный?

Accepted Answer

При группировке по нескольким полям все поля без агрегата должны быть перечислены в `GROUP BY`. Чтобы посчитать количество строк по комбинации значений, нужно указать все поля комбинации в `GROUP BY`. Запрос `SELECT user_id, status, COUNT(*) FROM orders GROUP BY user_id, status;` корректен. Если в `GROUP BY` указать только `user_id`, СУБД пожалуется на `status` как на не-агрегированное поле. Если попытаться сгруппировать по `COUNT(*)`, синтаксис вообще невалиден. Запись `GROUP BY 1` группирует только по первому полю и не даёт разрез по `status`.

Question 5

Нужно посчитать сумму оплаченных заказов по каждому пользователю. В таблице `orders` есть поля `user_id`, `amount`, `status`. Какой запрос корректен и наиболее эффективен?

Accepted Answer

`WHERE` фильтрует строки до группировки, а `HAVING` — уже агрегированные группы. Фильтрацию по обычному (не агрегированному) полю `status` лучше делать в `WHERE`, чтобы отбрасывать лишние строки до агрегации и не суммировать неоплаченные заказы. `HAVING` применяется уже к группам после `GROUP BY` и подходит для условий на агрегаты, например `HAVING SUM(amount) > 1000`. Варианты с `HAVING status = 'paid'` без агрегата формально могут отработать, но это менее эффективно и не отражает смысл оператора. Порядок `GROUP BY ... WHERE` синтаксически некорректен.

Агрегация, GROUP BY и HAVING: вопросы для собеседования (часть 2)

Вопросы 6–10 из 32

Хотите тренировать интерактивно?

Другие темы: SQL