Question 1

В каком случае `SUM(order_amount)` после `JOIN` скорее всего останется корректным, без эффекта размножения строк?

Accepted Answer

Атрибутный `JOIN` к таблице с одной строкой на ключ не размножает строки, поэтому `SUM()` по сумме заказа не искажается. Если правая таблица имеет максимум одну строку на ключ, каждая строка заказов найдёт не более одного совпадения. В таком случае `SUM(order_amount)` останется на том же уровне, просто к строкам добавятся атрибуты. А вот `JOIN` к источнику с отношением «один-ко-многим» или «многие-ко-многим» часто создаёт дубликаты строк и завышает суммы. Поэтому перед агрегацией важно проверять связность ключа справа.

Question 2

Вы соединяете таблицы пользователей и заказов по `user_id`, где у одного пользователя может быть много заказов (связь «один ко многим»). Как посчитать число пользователей, которые сделали хотя бы один заказ, и не получить дубли?

Accepted Answer

В соединении «один ко многим» `COUNT(*)` считает строки заказов, поэтому для пользователей нужен `COUNT(DISTINCT user_id)`. После соединения каждый заказ создаёт отдельную строку, поэтому пользователи с несколькими заказами появляются в результате несколько раз — это и есть дублирование. Чтобы получить число уникальных пользователей, нужно считать уникальные `user_id`, например через `COUNT(DISTINCT user_id)`. Тот же принцип полезен и для других метрик, где единица анализа — пользователь, а не строка таблицы.

Question 3

В таблице `users` 100 000 строк, в таблице `user_profiles` — ровно одна строка на каждого `user_id`. Вы делаете `INNER JOIN` по `user_id`. Что верно про число строк результата?

Accepted Answer

При связи «один к одному» `INNER JOIN` не размножает строки, а может только отбросить несовпавшие ключи. При связи «один к одному» на каждый `user_id` с каждой стороны есть максимум одна строка, поэтому множителя нет. `INNER JOIN` вернёт только пары, где ключ есть в обеих таблицах. Если часть пользователей без профиля, число строк уменьшится; если профили есть для всех, получится 100 000. Поэтому варианты «всегда ровно 100 000» или «может вырасти до 100 000 × 100 000» некорректны для такой структуры данных.

Question 4

Для одного `order_id` в `order_items` есть 3 строки, а в `payments` — 2 строки. Вы соединили обе таблицы по `order_id` без предварительной агрегации. Сколько строк получится для этого заказа и почему?

Accepted Answer

Когда две таблицы обе `one-to-many` к одному ключу, их `JOIN` превращается в `many-to-many` и даёт `join explosion`. Внутри одного `order_id` позиции и платежи комбинируются между собой. Каждая из 3 позиций соединится с каждым из 2 платежей, поэтому получится 6 строк. Это типичный источник дублирования в денежных метриках, если затем делать `SUM()` по такому соединению. Чтобы избежать размножения строк, обычно агрегируют одну из сторон до соединения.

Question 5

Вы хотели посчитать средний чек по заказам как `AVG(order_total)`. Но перед этим соединили `orders` с `order_items` по `order_id` (связь один-ко-многим). Почему `AVG()` может измениться по сравнению с расчётом на таблице `orders`?

Accepted Answer

После соединения один-ко-многим `AVG()` по полю заказа становится взвешенным из-за дублирования строк. В исходной таблице `orders` один заказ равен одной строке, поэтому `AVG(order_total)` — простой средний чек по заказам. После соединения с `order_items` каждый заказ повторяется столько раз, сколько у него позиций, и влияет на среднее несколько раз. Чтобы избежать искажения, считайте `AVG()` на уровне заказа или предварительно агрегируйте `order_items` до `order_id` перед соединением.

JOIN и кардинальность: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: Логика