Question 1

В одной категории 4 товара с выручкой 100, 100, 90 и 80. Вычисляем `RANK() OVER (ORDER BY revenue DESC)`. Какие ранги получат строки при сортировке по убыванию выручки?

Accepted Answer

`RANK` присваивает одинаковый ранг равным значениям и делает пропуски в нумерации после равенства. При `RANK() OVER (ORDER BY revenue DESC)` одинаковые значения выручки получают один ранг, а следующий после равенства увеличивается на количество строк в группе. Поэтому 100 и 100 получают ранг 1, а 90 — уже ранг 3 (а не 2). Для сравнения: `ROW_NUMBER()` всегда даёт уникальные номера 1, 2, 3, 4, а `DENSE_RANK()` не делает пропусков — 1, 1, 2, 3.

Question 2

Что именно посчитает выражение `SUM(amount) OVER (PARTITION BY campaign_id ORDER BY event_time)` в таблице платежей по кампаниям?

Accepted Answer

`PARTITION BY` задаёт независимые окна по группам, а `ORDER BY` — порядок накопления внутри каждой группы. Окно разбивается по `campaign_id`, поэтому суммы считаются независимо для каждой кампании. Внутри каждой кампании строки упорядочиваются по `event_time`, и `SUM(amount)` даёт кумулятивный итог на каждой строке. Это полезно для построения накопительных графиков расходов или выручки по кампаниям, не теряя детализацию по событиям.

Question 3

Нужно выбрать ровно один «самый дорогой» заказ каждого пользователя. Если у пользователя несколько заказов с одинаковой суммой, нужно взять самый поздний по времени. Какое окно решает задачу?

Accepted Answer

Чтобы детерминированно разрешить равенство значений, добавьте второй ключ в `ORDER BY` окна. `ROW_NUMBER()` присваивает уникальные номера и позволяет потом отфильтровать ровно одну строку с номером 1 на каждого пользователя. Чтобы при равной сумме всегда выбирать самый поздний заказ, в порядок добавляют второй ключ: сначала сумма по убыванию, затем дата заказа по убыванию. `RANK()` и `DENSE_RANK()` могут дать одинаковый ранг нескольким строкам и оставят их все, поэтому одной строкой результат не ограничится. Если в `ORDER BY` оставить только сумму, при равных суммах СУБД выберет строку недетерминированно.

Question 4

В недельной витрине метрик вы хотите вывести значение выручки из строки «две недели назад» отдельно для каждого продукта. Какой вызов оконной функции корректен?

Accepted Answer

Второй аргумент `LAG(x, n)` задаёт смещение на n строк назад внутри секции окна. Вызов `LAG(revenue, 2) OVER (PARTITION BY product_id ORDER BY week)` возвращает значение выручки из строки, которая находится на две позиции раньше в порядке `week` внутри секции `product_id`. Это удобно для сравнений с лагом 2 (например, текущая неделя против двух недель назад), когда сдвиг на одну неделю недостаточно информативен. Вариант `LEAD` смотрит вперёд, `LAG` без второго аргумента — на одну строку назад, а `FIRST_VALUE` всегда отдаёт первую строку секции.

Question 5

В каждой категории нужно выбрать товары с тремя наибольшими различными значениями выручки (`revenue`), включая все товары, которые делят эти значения при равенстве. Какой вариант даст нужный результат?

Accepted Answer

Для выбора первых N различных значений с учётом равных значений удобнее `DENSE_RANK`. Если нужно взять именно три различных уровня выручки внутри категории и включить все равные значения, подходит `DENSE_RANK() OVER (PARTITION BY category_id ORDER BY revenue DESC)`: одинаковые значения делят один ранг, а ранги идут без пропусков. Условие `dense_rank <= 3` захватит ровно три уровня значений. `ROW_NUMBER` ограничит до трёх строк и может «отрезать» часть строк с равной выручкой. `RANK` пропустит ранг 3 при равных значениях сверху, и тогда третий уровень по значению не попадёт в выборку. `GROUP BY` + `LIMIT 3` агрегирует категории, а не товары внутри.

Оконные функции: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: SQL