В `events(user_id, event_id)` у пользователя может быть много строк, и в `orders(user_id, order_id)` тоже много строк. Вы соединяете их по `user_id`. Какая связь получается на ключе и как это влияет на строки?

Question

Карьерник · Accepted Answer

Правильный ответ: Это `many-to-many`: строки по каждому `user_id` перемножаются, и возможен взрывной рост числа строк после соединения. Два источника, где по ключу много строк, при `JOIN` дают `many-to-many` и риск взрывного роста числа строк. Если у пользователя 5 событий и 2 заказа, после `JOIN` получится 10 строк только для него — это и есть размножение строк, которое ломает `COUNT(*)`, `SUM()` и даже `AVG()` при неверном уровне анализа. Чтобы избежать, выбирают правильный ключ соединения или делают предварительную агрегацию до нужной гранулярности. Варианты `one-to-one` и `one-to-many` неверно описывают ситуацию: при многих строках с обеих сторон связь по ключу всегда `many-to-many`. `DISTINCT` по `user_id` теряет данные, а не превращает соединение в `one-to-one`.

Разбор

Ещё вопросы по теме «JOIN и кардинальность»