Когда предварительная агрегация до соединения таблиц является ошибкой? Вы хотите посчитать выручку по категории товара, имея order_items(order_id, product_id, item_revenue) и products(product_id, category).
AНи в одном случае: предварительная агрегация до JOIN ускоряет запрос и сохраняет верный результат при любой схеме
BКогда таблица products мала и помещается в оперативную память воркера при выполнении JOIN на больших данных
CКогда целевой уровень измерения это позиция заказа, и агрегировать по category нужно уже после соединения таблиц
DКогда в колонках item_revenue или category встречаются значения NULL, что может исказить итоговую сумму выручки
Правильный ответ. Если целевая метрика на уровне позиции,
pre-aggregate до JOIN может уничтожить нужную детализацию.Разбор
Категория — атрибут товара, поэтому без JOIN order_items с products вы не знаете, к какой категории относится выручка. Если заранее свернуть до уровня order_id, вы потеряете разрез по товарам и категориям. В таких задачах правильнее агрегировать после JOIN на нужном уровне, контролируя cardinality и риск duplication.
Проверь себя · 1/3разбор после ответа
После
JOIN таблиц users и events по user_id (связь один-ко-многим) вы хотите получить число пользователей, у которых был хотя бы один ивент. Какой расчёт даст корректное число?Ещё вопросы по теме «JOIN и кардинальность»
- В таблице `users` 100 000 строк, в таблице `user_profiles` — ровно одна строка на каждого `user_id`. Вы делаете `INNER JOIN` по `user_id`. Что верно про число строк результата?
- Вы соединяете таблицы пользователей и заказов по `user_id`, где у одного пользователя может быть много заказов (связь «один ко многим»). Как посчитать число пользователей, которые сделали хотя бы один заказ, и не получить дубли?
- Для одного `order_id` в `order_items` есть 3 строки, а в `payments` — 2 строки. Вы соединили обе таблицы по `order_id` без предварительной агрегации. Сколько строк получится для этого заказа и почему?
- Нужен набор данных на уровне `user_id`: выручка из `orders` и число сессий из `sessions`. В обеих таблицах по пользователю много строк (один-ко-многим). Какой подход минимизирует риск размножения строк в соединении?
- Вы хотели посчитать средний чек по заказам как `AVG(order_total)`. Но перед этим соединили `orders` с `order_items` по `order_id` (связь один-ко-многим). Почему `AVG()` может измениться по сравнению с расчётом на таблице `orders`?
- Все вопросы по «JOIN и кардинальность» →