После JOIN метрика стала завышенной, и аналитик добавил DISTINCT ко всей таблице, чтобы убрать дубли. Почему это рискованный подход?

Question

Карьерник · Accepted Answer

Правильный ответ: DISTINCT маскирует причину раздувания строк после JOIN и может убрать настоящие повторы в данных, занижая метрику. DISTINCT поверх результата JOIN убирает симптом, а не причину — раздувание строк из-за связи многие-ко-многим. Корректный подход — дедуплицировать или агрегировать до соединения. После JOIN с дублированием строк DISTINCT может схлопнуть как лишние комбинации, так и легитимные повторы (например, два одинаковых товара в одном заказе), что искажает метрику в обе стороны. Главная проблема — потеря понимания, на каком уровне детализации (order, item, user) считается метрика. Правильный путь: pre-aggregate до уровня нужной сущности или явно выбрать ключ группировки и считать SUM/COUNT по нему. Производительность тут вторична.

После JOIN метрика стала завышенной, и аналитик добавил DISTINCT ко всей таблице, чтобы убрать дубли. Почему это рискованный подход?

Разбор

Ещё вопросы по теме «JOIN и кардинальность»