Вы соединяете агрегаты daily_orders(day, platform, orders) и daily_sessions(day, platform, sessions) для расчёта конверсии. Сделали JOIN только по day и заметили странные значения. В чём типичная ошибка?
AВ
JOIN нельзя использовать колонку day, нужно использовать только id.BИз-за
JOIN пропали строки, потому что нужен FULL JOIN.CПроизошло умножение строк: на каждый
day соединились все platform между собой, потому что в условии не хватает platform.DНичего страшного:
JOIN сам сопоставит правильные platform.Правильный ответ. Если не включить все ключи (например,
day и platform) в условие ON, агрегаты могут соединиться «крест-накрест» и раздуть метрики.Разбор
Обе таблицы агрегированы по двум измерениям: day и platform. Если соединить только по day, то строки разных платформ внутри одного дня начнут сочетаться друг с другом, создавая лишние комбинации и искажая orders/sessions. Правильное условие должно включать оба поля ключа, например ON o.day = s.day AND o.platform = s.platform.
Проверь себя · 1/3разбор после ответа
Нужно построить отчёт: по каждому продукту и каждому дню месяца — сумма продаж, включая дни с нулевыми продажами. Как сформировать каркас из всех пар дата-продукт?
Ещё вопросы по теме «JOIN и операции множеств»
- В отчёте нужно вывести всех пользователей и количество их заказов, включая тех, у кого заказов нет. Какой тип соединения между `users` и `orders` по `user_id` нужен?
- Нужно посчитать число пользователей, которые сделали хотя бы 1 заказ (таблицы `users(user_id)` и `orders(user_id, order_id)`). Какой запрос посчитает правильно?
- Вы соединили `orders` с `order_items` и `payments` по `order_id`, а затем посчитали `SUM(paid_amount)`. Сумма оказалась завышенной. Что вероятнее всего произошло и как исправить?
- Есть две таблицы с одинаковой схемой: `events_web(user_id, event_name, created_at)` и `events_app(user_id, event_name, created_at)`. Нужно получить общий поток событий для дальнейшей агрегации. Что использовать?
- Нужно получить уникальный список `user_id`, которые пришли из двух каналов: `campaign_a(user_id)` и `campaign_b(user_id)`. Как корректнее объединить списки, чтобы убрать дубликаты?
- Все вопросы по «JOIN и операции множеств» →