Q: В `df` есть столбец `age`. Какие значения `age` попадут в результат `df[(df["age"] >= 18) & (df["age"] <= 25)]`?

Комбинация условий через `&` дает пересечение (AND), границы `>=` и ` = 18) & (df["age"] =` и `<=` включают 18 и 25, поэтому останутся все значения в диапазоне 18–25 включительно. Скобки важны из‑за приоритета операторов.

Q: Вы хотите посчитать число уникальных пользователей по дням. Что корректно описывает результат `df.groupby("day")["user_id"].nunique()`?

`groupby(...).nunique()` возвращает `Series`: индекс — ключ группы, значения — число уникальных в каждой группе. После `df.groupby("day")` строки разбиваются по дню. Выбор колонки `"user_id"` и вызов `.nunique()` считает число различных пользователей в каждой группе — то есть в каждом дне. Это агрегированный результат: по одной величине на группу, поэтому тип результата — `Series` с индексом `day`. Чтобы получить общий уникальный счёт без разбивки, использовали бы `df["user_id"].nunique()`.

Q: Что произойдёт при `pd.merge(left, right, on="id", how="left")`, если в таблице `right` для одного `id` есть несколько строк?

При `JOIN`-ах возможна «размножающая» связь one-to-many: строки левой таблицы повторяются. `.merge()` выполняет табличное соединение. Если ключ `id` в правой таблице не уникален, то для одной строки `left` найдётся несколько соответствий в `right`. Тогда результат будет содержать несколько строк (декартово размножение внутри ключа): одна и та же строка `left` повторится для каждого совпадения из `right`. Это важный аналитический риск, который может «раздуть» метрики.

Q: Вы сделали `res = pd.merge(left, right, on="id", how="left", indicator=True)`. Как выбрать строки, для которых совпадения в `right` не нашлось?

С `indicator=True` столбец `_merge` показывает источник строки: `left_only`, `right_only` или `both`. Параметр `indicator=True` добавляет колонку `_merge` со значениями `left_only`, `right_only` или `both` — она помогает диагностировать результат соединения. При `how="left"` строки могут быть только `left_only` (нет пары справа) или `both` (пара нашлась); `right_only` тут не встречается. Фильтр `_merge == 'left_only'` как раз и оставит строки без совпадения справа. Колонка `_merge` всегда заполнена и не содержит `NaN`.

Q: Зачем часто используют `as_index=False` в выражении `df.groupby("city", as_index=False)["revenue"].sum()`?

`as_index=False` оставляет ключ группировки столбцом, а не индексом результата. По умолчанию `.groupby()` делает ключ группировки индексом результирующей таблицы. С `as_index=False` pandas вернёт `DataFrame`, где `city` будет обычным столбцом. Это удобно в аналитических пайплайнах: такой результат проще объединять через `.merge()` по столбцу и проще читать без дополнительных `reset_index()`.

Question 1

В `df` есть столбец `age`. Какие значения `age` попадут в результат `df[(df["age"] >= 18) & (df["age"] <= 25)]`?

Accepted Answer

Комбинация условий через `&` дает пересечение (AND), границы `>=` и `<=` включают крайние значения. В pandas логические операции выполняются поэлементно. Выражение `(df["age"] >= 18) & (df["age"] <= 25)` создает булеву маску, которая True только там, где оба условия выполняются одновременно. Операторы `>=` и `<=` включают 18 и 25, поэтому останутся все значения в диапазоне 18–25 включительно. Скобки важны из‑за приоритета операторов.

Question 2

Вы хотите посчитать число уникальных пользователей по дням. Что корректно описывает результат `df.groupby("day")["user_id"].nunique()`?

Accepted Answer

`groupby(...).nunique()` возвращает `Series`: индекс — ключ группы, значения — число уникальных в каждой группе. После `df.groupby("day")` строки разбиваются по дню. Выбор колонки `"user_id"` и вызов `.nunique()` считает число различных пользователей в каждой группе — то есть в каждом дне. Это агрегированный результат: по одной величине на группу, поэтому тип результата — `Series` с индексом `day`. Чтобы получить общий уникальный счёт без разбивки, использовали бы `df["user_id"].nunique()`.

Question 3

Что произойдёт при `pd.merge(left, right, on="id", how="left")`, если в таблице `right` для одного `id` есть несколько строк?

Accepted Answer

При `JOIN`-ах возможна «размножающая» связь one-to-many: строки левой таблицы повторяются. `.merge()` выполняет табличное соединение. Если ключ `id` в правой таблице не уникален, то для одной строки `left` найдётся несколько соответствий в `right`. Тогда результат будет содержать несколько строк (декартово размножение внутри ключа): одна и та же строка `left` повторится для каждого совпадения из `right`. Это важный аналитический риск, который может «раздуть» метрики.

Question 4

Вы сделали `res = pd.merge(left, right, on="id", how="left", indicator=True)`. Как выбрать строки, для которых совпадения в `right` не нашлось?

Accepted Answer

С `indicator=True` столбец `_merge` показывает источник строки: `left_only`, `right_only` или `both`. Параметр `indicator=True` добавляет колонку `_merge` со значениями `left_only`, `right_only` или `both` — она помогает диагностировать результат соединения. При `how="left"` строки могут быть только `left_only` (нет пары справа) или `both` (пара нашлась); `right_only` тут не встречается. Фильтр `_merge == 'left_only'` как раз и оставит строки без совпадения справа. Колонка `_merge` всегда заполнена и не содержит `NaN`.

Question 5

Зачем часто используют `as_index=False` в выражении `df.groupby("city", as_index=False)["revenue"].sum()`?

Accepted Answer

`as_index=False` оставляет ключ группировки столбцом, а не индексом результата. По умолчанию `.groupby()` делает ключ группировки индексом результирующей таблицы. С `as_index=False` pandas вернёт `DataFrame`, где `city` будет обычным столбцом. Это удобно в аналитических пайплайнах: такой результат проще объединять через `.merge()` по столбцу и проще читать без дополнительных `reset_index()`.

Pandas и DataFrame: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Python