Вы объединяете логи событий из двух источников `events_web` и `events_app`, чтобы посчитать количество событий. Важно не потерять повторяющиеся события (например, два одинаковых клика). Что лучше использовать для объединения?

Question

Карьерник · Accepted Answer

Правильный ответ: `UNION ALL` сохраняет все строки обоих источников вместе с повторениями. `UNION ALL` сохраняет все строки, а `UNION` удаляет дубликаты и может занизить количество событий. В событийных логах одинаковые строки могут быть валидными повторениями (два клика, две покупки и т.д.). Если использовать `UNION`, такие строки будут схлопнуты, и метрика количества событий станет заниженной. `INTERSECT` оставит только пересечение, `EXCEPT` — разность, оба сценария теряют события. Поэтому для подсчётов по логам обычно применяют `UNION ALL`.

Разбор

Ещё вопросы по теме «JOIN и операции множеств»