Вы соединяете таблицы пользователей и заказов по user_id, где у одного пользователя может быть много заказов (связь «один ко многим»). Как посчитать число пользователей, которые сделали хотя бы один заказ, и не получить дубли?
ACOUNT(*) после соединения таблиц пользователей и заказов по user_id
BCOUNT(DISTINCT user_id) после соединения таблиц пользователей и заказов по user_id
CCOUNT(user_id) после соединения с фильтром WHERE order_id IS NOT NULL
DCOUNT(DISTINCT order_id) после соединения с группировкой GROUP BY user_id
Правильный ответ. В соединении «один ко многим»
COUNT(*) считает строки заказов, поэтому для пользователей нужен COUNT(DISTINCT user_id).Разбор
После соединения каждый заказ создаёт отдельную строку, поэтому пользователи с несколькими заказами появляются в результате несколько раз — это и есть дублирование. Чтобы получить число уникальных пользователей, нужно считать уникальные user_id, например через COUNT(DISTINCT user_id). Тот же принцип полезен и для других метрик, где единица анализа — пользователь, а не строка таблицы.
Проверь себя · 1/3разбор после ответа
Вы соединяете таблицы пользователей и заказов по
user_id, где у одного пользователя может быть много заказов (связь «один ко многим»). Как посчитать число пользователей, которые сделали хотя бы один заказ, и не получить дубли?Ещё вопросы по теме «JOIN и кардинальность»
- В таблице `users` 100 000 строк, в таблице `user_profiles` — ровно одна строка на каждого `user_id`. Вы делаете `INNER JOIN` по `user_id`. Что верно про число строк результата?
- Для одного `order_id` в `order_items` есть 3 строки, а в `payments` — 2 строки. Вы соединили обе таблицы по `order_id` без предварительной агрегации. Сколько строк получится для этого заказа и почему?
- Нужен набор данных на уровне `user_id`: выручка из `orders` и число сессий из `sessions`. В обеих таблицах по пользователю много строк (один-ко-многим). Какой подход минимизирует риск размножения строк в соединении?
- Вы хотели посчитать средний чек по заказам как `AVG(order_total)`. Но перед этим соединили `orders` с `order_items` по `order_id` (связь один-ко-многим). Почему `AVG()` может измениться по сравнению с расчётом на таблице `orders`?
- В каком случае `SUM(order_amount)` после `JOIN` скорее всего останется корректным, без эффекта размножения строк?
- Все вопросы по «JOIN и кардинальность» →