Question 1

Что вернёт выражение `df[df["price"] > 100]`?

Accepted Answer

Булева индексация применяет маску к `DataFrame` и возвращает только подходящие строки со всеми столбцами. Внутреннее выражение `df["price"] > 100` формирует булеву `Series` той же длины, что и `DataFrame`. Когда вы пишете `df[маска]`, `pandas` оставляет только те строки, где маска равна `True`, а столбцы возвращает все. Это и есть булева индексация: результатом будет `DataFrame` с теми же столбцами, что были у `df`, но с отфильтрованными строками. Возвращается именно `DataFrame`, а не `Series` и не сама маска: исходный индекс строк сохраняется, если явно не вызвать `reset_index()`.

Question 2

Какое выражение в `pandas` гарантированно вернёт объект `DataFrame` (а не `Series`) при выборе одного столбца с именем `col`?

Accepted Answer

Список столбцов в двойных скобках возвращает `DataFrame`, даже если в списке всего один столбец. В `pandas` выражения `df["col"]` и `df.loc[:, "col"]` возвращают `Series`, потому что выбирается один столбец как одномерный объект. А `df[["col"]]` передаёт список столбцов, поэтому результат — всегда `DataFrame`, что удобно для последующих `.merge()` или сохранения формы данных. Выражение `df.iloc[:, 0]` тоже даст `Series`, потому что обращается к одному столбцу по позиции.

Question 3

Что верно про вызов `pd.merge(orders, customers, on="customer_id", how="left")`?

Accepted Answer

`left` join сохраняет все строки из левой таблицы и добавляет данные из правой по ключу. При `how="left"` левая таблица — это `orders`, поэтому каждая строка заказа попадёт в результат. Для каждого заказа `pandas` пытается найти строку в `customers` с тем же `customer_id`. Если совпадения нет, колонки из `customers` заполняются `NaN`. Это типичный паттерн для обогащения фактов (заказов) атрибутами (клиентов). Дубликаты по ключу автоматически не удаляются — они приведут к размножению строк.

Question 4

Что выберет фильтр `df[~df["status"].isin(["cancelled", "returned"])]`?

Accepted Answer

`.isin()` проверяет принадлежность значения списку, а `~` инвертирует булеву маску. Метод `df["status"].isin([...])` возвращает булеву `Series`: True для строк, где значение входит в указанный набор. Оператор `~` инвертирует маску: True становится False и наоборот. Поэтому выражение `df[~df["status"].isin([...])]` оставляет строки, где статус не равен ни одному элементу списка. Важно: `NaN` сюда не попадёт автоматически — `.isin()` для `NaN` возвращает False, а после инверсии — True.

Question 5

Что верно про два шага: `mask = df["col"] > 0` и затем `df[mask]`?

Accepted Answer

Условие по столбцу даёт булеву `Series`, а применение маски к `DataFrame` возвращает строки, где значение `True`. Выражение `df["col"] > 0` сравнивает значения одного столбца и возвращает булеву `Series` (один элемент на строку). Когда эту `Series` используют как индексатор `df[mask]`, pandas выбирает строки, где маска равна `True`. Так обычно строится фильтрация данных в `DataFrame` без циклов и явного перебора строк.

Вопросы по теме «Pandas и DataFrame»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: Python