Question 1

У пользователя может быть несколько заказов в `orders` и несколько возвратов в `refunds`. Вы соединили `orders` и `refunds` по `user_id` и посчитали `SUM(refund_amount)`. Что наиболее вероятно произойдёт с суммой и почему?

Accepted Answer

Когда обе стороны имеют несколько строк на `user_id`, `JOIN` становится «многие ко многим» и раздувает `SUM()` из-за повторов. Внутри одного пользователя заказы и возвраты комбинируются, образуя пары «каждый с каждым». В результате один и тот же возврат попадает в несколько строк и учитывается несколько раз в `SUM(refund_amount)`. Чтобы исправить, нужно предварительно агрегировать одну из сторон до `user_id` либо соединять по более точному ключу, например `order_id`. Это классическая ошибка раздувания при `JOIN` по неполному ключу.

Question 2

Когда предварительная агрегация до соединения таблиц является ошибкой? Вы хотите посчитать выручку по категории товара, имея order_items(order_id, product_id, item_revenue) и products(product_id, category).

Accepted Answer

Если целевая метрика на уровне позиции, `pre-aggregate` до `JOIN` может уничтожить нужную детализацию. Категория — атрибут товара, поэтому без `JOIN` `order_items` с `products` вы не знаете, к какой категории относится выручка. Если заранее свернуть до уровня `order_id`, вы потеряете разрез по товарам и категориям. В таких задачах правильнее агрегировать после `JOIN` на нужном уровне, контролируя `cardinality` и риск `duplication`.

Question 3

После JOIN метрика стала завышенной, и аналитик добавил DISTINCT ко всей таблице, чтобы убрать дубли. Почему это рискованный подход?

Accepted Answer

DISTINCT поверх результата JOIN убирает симптом, а не причину — раздувание строк из-за связи многие-ко-многим. Корректный подход — дедуплицировать или агрегировать до соединения. После JOIN с дублированием строк DISTINCT может схлопнуть как лишние комбинации, так и легитимные повторы (например, два одинаковых товара в одном заказе), что искажает метрику в обе стороны. Главная проблема — потеря понимания, на каком уровне детализации (order, item, user) считается метрика. Правильный путь: pre-aggregate до уровня нужной сущности или явно выбрать ключ группировки и считать SUM/COUNT по нему. Производительность тут вторична.

Question 4

Хотите посчитать конверсию «пользователь посмотрел товар → пользователь купил» по `user_id`. Данные: таблица событий (много просмотров на пользователя) и таблица заказов (много заказов на пользователя). Что корректнее всего сделать, чтобы избежать искажения «многие-ко-многим»?

Accepted Answer

Для конверсии на уровне пользователя нужно сначала свернуть события и заказы до одного факта на `user_id`, иначе соединение «многие-ко-многим» создаст дубликаты. Если соединить сырые события и заказы, пользователь с 10 просмотрами и 2 заказами даст 20 строк — это размножение строк после соединения. Тогда и числитель, и знаменатель могут стать бессмысленными, а эффект — искусственным. Превратите каждый источник в один факт на пользователя, и только затем считайте конверсию.

Question 5

Вы строите выручку по каналу: соединяете `sessions(user_id, channel)` и `orders(user_id, revenue)` по `user_id`, затем считаете `SUM(revenue)` по `channel`. Получившаяся выручка сильно больше бухгалтерской. Что наиболее вероятно и что делать?

Accepted Answer

Соединение двух `one-to-many` источников по `user_id` даёт `many-to-many` и ломает денежные метрики из-за `duplication`. Каждый заказ пользователя матчится на каждую его сессию, поэтому один и тот же `revenue` учитывается много раз в `SUM()`. `distinct` может случайно скрыть часть дублей и сломать данные по-другому, поэтому это плохой костыль. Правильный путь — определить целевой уровень данных, `pre-aggregate` до него и затем соединять.

JOIN и кардинальность: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Логика