Question 1

В `df` есть столбцы `user_id` и `amount`. Что вернёт выражение `df.groupby("user_id")["amount"].sum()`?

Accepted Answer

Выбор одного столбца после `.groupby()` обычно ведёт к `Series` после агрегации, а не к `DataFrame`. Конструкция `df.groupby("user_id")["amount"]` выбирает один столбец `amount` внутри групп и возвращает объект, который при агрегации `sum()` даёт `Series`. Индексом этой `Series` будут значения ключа группировки `user_id`, а значениями — суммы `amount` внутри каждой группы. Если нужен именно `DataFrame` с двумя столбцами, обычно добавляют `reset_index()`. Скаляр получился бы только при `df["amount"].sum()` без группировки.

Question 2

Что вернёт вызов `df.mean(numeric_only=True)` для числовых столбцов в `DataFrame` `df`?

Accepted Answer

Многие агрегаты по умолчанию считаются по столбцам и возвращают `Series` с метками колонок. Вызов `df.mean(...)` агрегирует по оси столбцов, считая среднее в каждом числовом столбце отдельно. Результат — `Series`: индекс — названия числовых колонок, значения — их средние. Это удобный способ быстро получить «профиль» числовых признаков. Чтобы получить одно число по всей таблице, нужно сначала свести её, например `df.to_numpy().mean()`.

Question 3

В чём смысл параметров в `pd.merge(df_left, df_right, left_on="sku", right_on="product_sku", how="inner")`?

Accepted Answer

`left_on`/`right_on` нужны, когда названия ключевых столбцов различаются. Параметры `left_on` и `right_on` явно задают, какие колонки сравнивать для построения соответствий между строками. В примере ключ в левой таблице называется `sku`, а в правой — `product_sku`. `how="inner"` означает, что в результат попадут только пары строк, где ключи совпали.

Question 4

У вас есть `s = df.groupby("user_id").size()`. Что нужно сделать, чтобы получить таблицу `DataFrame` с колонками `user_id` и `cnt` для дальнейшего объединения через `.merge()`?

Accepted Answer

Метод `.size()` возвращает `Series`, а `reset_index(...)` превращает агрегат в табличный `DataFrame` с колонкой-ключом. После `groupby(...).size()` вы получаете объект `Series`, где индекс — это ключ группировки `user_id`, а значения — количество строк в группе. Для соединений через `.merge()` чаще удобнее иметь явный столбец с ключом, поэтому применяют `reset_index(name="cnt")`: индекс превратится в колонку `user_id`, а вторая колонка получит имя `cnt`. Альтернативы вроде `to_dict` или преобразования в массив теряют табличную структуру, нужную для `.merge()`.

Question 5

В `DataFrame` `df` есть столбцы `country`, `user_id`, `revenue`. Что вернёт выражение `df.loc[df["country"] == "RU", ["user_id", "revenue"]]`?

Accepted Answer

`.loc` позволяет одновременно выбрать строки по условию и нужные столбцы, возвращая `DataFrame`. В `df.loc[строки, столбцы]` первый аргумент отвечает за выбор строк, второй — за выбор столбцов. Условие `df["country"] == "RU"` даёт булеву `Series`, которая фильтрует строки. Список столбцов `["user_id", "revenue"]` ограничивает набор колонок, поэтому результатом будет `DataFrame`, а не `Series`.

Pandas и DataFrame: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: Python