Есть `events` со столбцами `user_id`, `event`, `ts` и таблица `users` со столбцом `user_id`. Нужно посчитать число покупок (`event == 'purchase'`) за 2025 год по пользователю и присоединить к `users`, сохранив всех пользователей. Какой вариант корректен?

Question

Карьерник · Accepted Answer

Правильный ответ: Фильтр по типу события и `dt.year == 2025`, `groupby('user_id').size()`, `reset_index(name='purchase_cnt')`, `merge(..., how='left')`. Типичный пайплайн: фильтрация → `.groupby().size()` → `reset_index` → `.merge(..., how='left')`. Сначала события фильтруются по типу и периоду через булеву индексацию. Затем агрегируют по `user_id` — удобный счётчик строк в группе даёт `.size()`. Чтобы результат стал плоским и легко мерджился, делают `reset_index(name='purchase_cnt')`. Наконец, `.merge(..., how='left')` сохраняет всех пользователей из `users`, добавляя счётчик покупок (у пользователей без покупок будет `NaN`, его при необходимости заменяют на 0). Варианты с `inner`, без фильтра или без `reset_index` ломают одно из этих требований.

Разбор

Ещё вопросы по теме «Pandas и DataFrame»