После JOIN таблиц users и events по user_id (связь один-ко-многим) вы хотите получить число пользователей, у которых был хотя бы один ивент. Какой расчёт даст корректное число?
ACOUNT(*) на результате JOIN с GROUP BY user_id для подсчёта уникальных пользователей с событиями
BCOUNT(user_id) после JOIN таблиц users и events с фильтром WHERE event_id IS NOT NULL
CCOUNT(DISTINCT event_id) на результате JOIN таблиц users и events для подсчёта уникальных пользователей
DCOUNT(DISTINCT user_id) на результате JOIN таблиц users и events по user_id для уникальных
Правильный ответ. При связи один-ко-многим в
JOIN для подсчёта пользователей нужен COUNT(DISTINCT user_id), иначе вы посчитаете события.Разбор
Каждый пользователь с несколькими событиями даст несколько строк после JOIN — это размножение строк. COUNT(*) в таком датасете измеряет количество строк, а не количество пользователей. Чтобы считать пользователей, используйте COUNT(DISTINCT user_id) или заранее агрегируйте события до одного флага на user_id.
Проверь себя · 1/3разбор после ответа
Хотите посчитать конверсию «пользователь посмотрел товар → пользователь купил» по
user_id. Данные: таблица событий (много просмотров на пользователя) и таблица заказов (много заказов на пользователя). Что корректнее всего сделать, чтобы избежать искажения «многие-ко-многим»?Ещё вопросы по теме «JOIN и кардинальность»
- В таблице `users` 100 000 строк, в таблице `user_profiles` — ровно одна строка на каждого `user_id`. Вы делаете `INNER JOIN` по `user_id`. Что верно про число строк результата?
- Вы соединяете таблицы пользователей и заказов по `user_id`, где у одного пользователя может быть много заказов (связь «один ко многим»). Как посчитать число пользователей, которые сделали хотя бы один заказ, и не получить дубли?
- Для одного `order_id` в `order_items` есть 3 строки, а в `payments` — 2 строки. Вы соединили обе таблицы по `order_id` без предварительной агрегации. Сколько строк получится для этого заказа и почему?
- Нужен набор данных на уровне `user_id`: выручка из `orders` и число сессий из `sessions`. В обеих таблицах по пользователю много строк (один-ко-многим). Какой подход минимизирует риск размножения строк в соединении?
- Вы хотели посчитать средний чек по заказам как `AVG(order_total)`. Но перед этим соединили `orders` с `order_items` по `order_id` (связь один-ко-многим). Почему `AVG()` может измениться по сравнению с расчётом на таблице `orders`?
- Все вопросы по «JOIN и кардинальность» →