Question 1

В таблице метрик есть `dt`, `platform`, `dau`. Нужно вывести значение `dau` за предыдущий день для той же платформы, чтобы посчитать дневное изменение. Какое выражение верное?

Accepted Answer

`LAG` берёт предыдущее значение по `ORDER BY` внутри каждой группы, заданной `PARTITION BY`. Чтобы получить «вчерашний» `dau`, нужно определить порядок по времени через `ORDER BY dt`. Чтобы сравнение шло внутри одной платформы, нужно `PARTITION BY platform`. Поэтому корректно: `LAG(dau) OVER (PARTITION BY platform ORDER BY dt)`. Без сортировки понятие «предыдущий день» не определено, без разбиения по платформе вы будете сравнивать разные платформы, а `LEAD` берёт следующее значение, а не предыдущее.

Question 2

Хотите добавить к каждой транзакции колонку «доля от общей суммы транзакций этого пользователя» и при этом не терять детализацию по транзакциям. Какой фрагмент корректен?

Accepted Answer

Оконная агрегация считает итог по группе и возвращает его в каждой строке, сохраняя гранулярность. Фрагмент `amount / SUM(amount) OVER (PARTITION BY user_id)` считает общий `SUM(amount)` по каждому `user_id` и делит сумму конкретной транзакции на этот общий итог. Так сохраняются все строки транзакций, что важно для анализа вкладов/долей. Если использовать `GROUP BY user_id`, вы схлопнете данные до одной строки на пользователя и потеряете детализацию по транзакциям.

Question 3

В таблице платежей для каждой транзакции нужен накопительный итог сумм пользователя на этот момент. Какое выражение даёт корректный результат?

Accepted Answer

Накопительный итог требует `ORDER BY` в окне, а раздельность по пользователям — `PARTITION BY`. `SUM(amount) OVER (PARTITION BY user_id ORDER BY paid_at)` суммирует значения внутри каждого пользователя в порядке времени платежа и возвращает кумулятивный итог в каждой строке. Без `ORDER BY` получится общий итог по пользователю, повторённый в каждой строке. Без `PARTITION BY` накопление пойдёт по всем пользователям вместе, что ломает пользовательскую аналитику. Вариант с `GROUP BY` вообще схлопывает строки и делает накопление невозможным.

Question 4

Вы пишете `LAG(price) OVER (PARTITION BY product_id)`, чтобы получить «вчерашнюю цену» товара по дням. Почему результат может оказаться неожиданным?

Accepted Answer

Для `LAG` обязателен осмысленный порядок через `ORDER BY` в окне. Окно `OVER (PARTITION BY product_id)` задаёт группу строк товара, но не задаёт их порядок. Без `ORDER BY dt` невозможно определить, какая строка «вчерашняя», поэтому `LAG(price)` может вернуть значение из любой даты внутри секции. Чтобы анализировать динамику, используйте `LAG(price) OVER (PARTITION BY product_id ORDER BY dt)` (и при совпадениях добавьте дополнительный ключ сортировки). `LAG` свободно сочетается с `PARTITION BY`, не возвращает `NULL` автоматически и не требует `GROUP BY`.

Question 5

Вы делаете рейтинг товаров по выручке внутри категории. Если два товара делят 2 место, следующий товар должен получить 3 место (без пропуска). Какая функция подходит лучше всего?

Accepted Answer

`DENSE_RANK` присваивает одинаковое место равным значениям и не делает пропусков в нумерации. `DENSE_RANK()` дает одинаковый ранг равным значениям, а следующий ранг увеличивает на 1: 1, 2, 2, 3... Это подходит, когда места должны идти без пропусков. В `RANK()` после равенства появляются пропуски (1, 2, 2, 4...). `ROW_NUMBER()` вообще не выделяет одинаковые места: у каждой строки свой номер.

Оконные функции: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: SQL