Q: В `SELECT` определена колонка `CASE WHEN years_exp < 1 THEN 'Junior' WHEN years_exp < 5 THEN 'Middle' ELSE 'Senior' END AS level`. Как корректно сгруппировать по этому выражению в PostgreSQL?

PostgreSQL разрешает использовать псевдонимы из `SELECT` в `GROUP BY` — можно написать `GROUP BY level`. По стандарту SQL псевдоним из `SELECT` недоступен в `GROUP BY`, но PostgreSQL расширяет стандарт и позволяет это. Можно написать `GROUP BY level`, `GROUP BY 1` (порядковый номер колонки) или повторить выражение `CASE WHEN` целиком. Самый читаемый вариант — использовать псевдоним. `WHERE` фильтрует строки до агрегации и не заменяет группировку, а `HAVING` отбирает уже сгруппированные строки и тоже не годится вместо `GROUP BY`.

Q: Нужно одним запросом получить итоги отдельно по каждому городу, отдельно по каждому продукту и общий итог — три уровня без их совместной комбинации. Какое выражение даёт ровно эти три уровня?

`GROUP BY GROUPING SETS((city),(product),())` явно перечисляет три нужных уровня: по городу, по продукту и общий итог. `GROUPING SETS` позволяет задать точный список комбинаций группировки. `ROLLUP(city, product)` генерирует `(city, product)`, `(city)`, `()` — три уровня с лишней совместной комбинацией. `CUBE(city, product)` генерирует все четыре: `(city,product)`, `(city)`, `(product)`, `()` — с лишней парой. `GROUPING SETS((city),(product),())` — единственный точный способ получить ровно нужные три уровня без лишних строк.

Question 1

Что вернёт запрос `SELECT region, category, COUNT(*) FROM sales GROUP BY ROLLUP(region, category)`?

Accepted Answer

`ROLLUP(a, b)` генерирует три уровня группировки: `(a, b)`, `(a)` и `()`. Строки с итогами помечаются `NULL` в соответствующих столбцах. `GROUP BY ROLLUP(region, category)` генерирует группировки `(region, category)`, `(region)` и `()`. Для таблицы продаж получаем подсчёт по каждой паре регион-категория, подытог по каждому региону с `NULL` вместо `category`, и общий итог с `NULL` в обоих столбцах. Функция `GROUPING(col)` позволяет отличить синтетический `NULL` в строке итога от реального `NULL` в исходных данных.

Question 2

Нужно вычислить медианную зарплату по каждому отделу в одном запросе. В PostgreSQL нет функции `MEDIAN()`. Какой синтаксис корректен?

Accepted Answer

`PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY salary)` — стандартная упорядоченная агрегатная функция, работает с `GROUP BY`. Конструкция `PERCENTILE_CONT(fraction) WITHIN GROUP (ORDER BY col)` — упорядоченная агрегатная функция стандарта SQL:2003. При значении 0.5 возвращает медиану с линейной интерполяцией между соседними значениями. Аналог `PERCENTILE_DISC(0.5)` возвращает ближайшее реальное значение без интерполяции. Обе работают вместе с `GROUP BY`. Полусумма `MAX` и `MIN` равна медиане только в симметричном распределении, а вариант с `LIMIT/OFFSET` не работает внутри агрегации по отделам.

Question 3

Нужно получить топ-3 продукта по выручке внутри каждой категории. Какой подход корректен в PostgreSQL?

Accepted Answer

Паттерн «топ-N внутри группы» требует оконной функции `ROW_NUMBER() OVER (PARTITION BY ...)` с последующей фильтрацией по номеру строки во внешнем запросе. `LIMIT` без оконной функции ограничивает весь результат запроса, а не каждую группу отдельно. `DISTINCT ON (category)` даёт только топ-1. `HAVING` не знает о позиции строки внутри группы. Правильный подход: в `CTE` или подзапросе присвоить `ROW_NUMBER() OVER (PARTITION BY category ORDER BY revenue DESC) AS rn`, затем во внешнем запросе написать `WHERE rn <= 3`. При ничьих можно использовать `RANK()` вместо `ROW_NUMBER()`.

Question 4

В `SELECT` определена колонка `CASE WHEN years_exp < 1 THEN 'Junior' WHEN years_exp < 5 THEN 'Middle' ELSE 'Senior' END AS level`. Как корректно сгруппировать по этому выражению в PostgreSQL?

Accepted Answer

PostgreSQL разрешает использовать псевдонимы из `SELECT` в `GROUP BY` — можно написать `GROUP BY level`. По стандарту SQL псевдоним из `SELECT` недоступен в `GROUP BY`, но PostgreSQL расширяет стандарт и позволяет это. Можно написать `GROUP BY level`, `GROUP BY 1` (порядковый номер колонки) или повторить выражение `CASE WHEN` целиком. Самый читаемый вариант — использовать псевдоним. `WHERE` фильтрует строки до агрегации и не заменяет группировку, а `HAVING` отбирает уже сгруппированные строки и тоже не годится вместо `GROUP BY`.

Question 5

Нужно одним запросом получить итоги отдельно по каждому городу, отдельно по каждому продукту и общий итог — три уровня без их совместной комбинации. Какое выражение даёт ровно эти три уровня?

Accepted Answer

`GROUP BY GROUPING SETS((city),(product),())` явно перечисляет три нужных уровня: по городу, по продукту и общий итог. `GROUPING SETS` позволяет задать точный список комбинаций группировки. `ROLLUP(city, product)` генерирует `(city, product)`, `(city)`, `()` — три уровня с лишней совместной комбинацией. `CUBE(city, product)` генерирует все четыре: `(city,product)`, `(city)`, `(product)`, `()` — с лишней парой. `GROUPING SETS((city),(product),())` — единственный точный способ получить ровно нужные три уровня без лишних строк.

Агрегация, GROUP BY и HAVING: вопросы для собеседования (часть 6)

Вопросы 26–30 из 32

Хотите тренировать интерактивно?

Другие темы: SQL