В таблице events(user_id, event_name) один пользователь может иметь много событий каждого типа. Нужно получить список пользователей, которые сделали и install, и purchase, при этом вернуть каждого пользователя один раз. Какой запрос лучше подходит?
A
SELECT e1.user_id FROM events e1 INNER JOIN events e2 ON e1.user_id = e2.user_id WHERE e1.event_name = 'install' AND e2.event_name = 'purchase';B
SELECT user_id FROM events WHERE event_name IN ('install','purchase');C
SELECT user_id FROM events WHERE event_name = 'install' INTERSECT SELECT user_id FROM events WHERE event_name = 'purchase';D
SELECT user_id FROM events WHERE event_name = 'install' UNION ALL SELECT user_id FROM events WHERE event_name = 'purchase';Правильный ответ.
INTERSECT вернёт пересечение пользователей и не создаст мультипликацию строк, как self-JOIN.Разбор
self-join по events может сильно размножить строки: если у пользователя 3 install и 5 purchase, вы получите 15 строк. Это можно исправить через DISTINCT, но проще выразить задачу на уровне множеств: взять пользователей с install и пересечь с пользователями с purchase через INTERSECT. Так вы сразу получите уникальный список пользователей, прошедших оба шага воронки.
Проверь себя · 1/3разбор после ответа
Таблица
sessions и таблица purchases содержат user_id и date. Нужно соединить данные так, чтобы каждой сессии соответствовала покупка того же пользователя в тот же день. Как записать JOIN?Ещё вопросы по теме «JOIN и операции множеств»
- В отчёте нужно вывести всех пользователей и количество их заказов, включая тех, у кого заказов нет. Какой тип соединения между `users` и `orders` по `user_id` нужен?
- Нужно посчитать число пользователей, которые сделали хотя бы 1 заказ (таблицы `users(user_id)` и `orders(user_id, order_id)`). Какой запрос посчитает правильно?
- Вы соединили `orders` с `order_items` и `payments` по `order_id`, а затем посчитали `SUM(paid_amount)`. Сумма оказалась завышенной. Что вероятнее всего произошло и как исправить?
- Есть две таблицы с одинаковой схемой: `events_web(user_id, event_name, created_at)` и `events_app(user_id, event_name, created_at)`. Нужно получить общий поток событий для дальнейшей агрегации. Что использовать?
- Нужно получить уникальный список `user_id`, которые пришли из двух каналов: `campaign_a(user_id)` и `campaign_b(user_id)`. Как корректнее объединить списки, чтобы убрать дубликаты?
- Все вопросы по «JOIN и операции множеств» →