Question 1

Что вернёт выражение `df.groupby("city").agg(total=("revenue", "sum"), avg=("revenue", "mean"))`?

Accepted Answer

`.agg()` с несколькими агрегатами формирует итоговую таблицу по группам. После `.groupby("city")` данные разделяются по ключу `city`. Метод `.agg(...)` вычисляет агрегаты по каждой группе и возвращает итоговый `DataFrame`: по одной строке на город. В этом примере будут два столбца: сумма `revenue` (`total`) и среднее `revenue` (`avg`). По умолчанию ключ группировки становится индексом результата.

Question 2

Зачем добавляют `validate="one_to_one"` в `pd.merge(a, b, on="id", how="left", validate="one_to_one")`?

Accepted Answer

Параметр `validate` помогает ловить ошибки кардинальности соединения (one-to-one, one-to-many). `validate="one_to_one"` сообщает pandas, что вы ожидаете уникальный ключ `id` и в `a`, и в `b`. Если на практике обнаружатся дубликаты ключа хотя бы с одной стороны, `.merge()` выбросит исключение. Это полезно, когда вы строите аналитические витрины и хотите заранее защититься от неожиданного размножения строк.

Question 3

Как корректно проставить 1 в столбец `flag` для строк, где `x > 0`, избегая chained indexing и `SettingWithCopyWarning`?

Accepted Answer

Для безопасного присваивания по условию используйте `.loc[условие, столбец] = ...`. Выражение вида `df[условие]["col"] = ...` создает промежуточный объект и может менять не исходный `DataFrame`, что приводит к `SettingWithCopyWarning` и потенциально к ошибкам в аналитике. Идиоматичный и надежный способ — `df.loc[условие, "col"] = значение`: в одном шаге выбираются нужные строки и столбец, и присваивание выполняется на оригинальном `DataFrame`.

Question 4

Нужно посчитать долю каждой строки в сумме продаж своей группы по `store`: `share = sales / sum(sales)` внутри `store`. Какой вариант самый идиоматичный в pandas?

Accepted Answer

Для расчёта значений на уровне строк внутри групп чаще всего используют `.transform()`.  `.transform("sum")` возвращает `Series` той же длины, что и исходный `DataFrame`, где каждой строке сопоставлена сумма ее группы. Это позволяет делать поэлементные вычисления без циклов: `df["sales"] / ...`. Варианты с `.sum()` без `transform()` обычно дают агрегированный результат по группам и не совпадают по длине с исходными строками.

Question 5

Есть `events` со столбцами `user_id`, `event`, `ts` и таблица `users` со столбцом `user_id`. Нужно посчитать число покупок (`event == "purchase"`) в 2025 году на пользователя и присоединить к `users`, сохранив всех пользователей. Какой вариант корректен?

Accepted Answer

Типичный пайплайн: фильтрация → `.groupby().size()` → `reset_index` → `.merge(..., how="left")`. Сначала нужно отфильтровать события по типу и периоду через булевую индексацию. Затем агрегировать по `user_id`, удобный счетчик покупок — `.size()`, который считает строки в группе. Чтобы результат был табличным и легко объединялся, делают `reset_index(name="purchase_cnt")`. Наконец, `.merge(..., how="left")` сохраняет всех пользователей из `users`, добавляя им счетчик покупок (у пользователей без покупок значение станет `NaN`, которое при необходимости можно заменить на 0).

Pandas и DataFrame: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Python