Вопросы по Python на собеседовании аналитика
Что спрашивают по Python
Python на собеседовании аналитика — это не алгоритмы и не разработка. Проверяют умение работать с данными: загрузить, почистить, агрегировать, визуализировать.
Основные темы:
pandas — ядро вопросов:
- groupby, merge, join — аналоги SQL-операций
- Работа с пропусками: fillna, dropna, isna
- Фильтрация и создание новых колонок
- pivot_table и melt
- Временные ряды: resample, rolling
numpy:
- Базовые операции: mean, std, reshape
- Векторизация vs циклы
- Broadcasting
Общий Python:
- Типы данных: list, dict, set, tuple — когда какой
- List comprehensions
- Работа со строками
- lambda и apply
Почему проваливают Python-часть
Аналитики часто пишут код «на автопилоте» — знают, что df.groupby().agg() работает, но не могут объяснить, что вернёт конкретный вызов. На собеседовании спрашивают именно понимание, а не умение загуглить.
Частые проблемы:
- Путают
size()иcount()в groupby — size считает все строки, count пропускает NULL - Не знают разницу между
locиiloc - Не могут объяснить, почему
df[df.col > 5]работает (булева индексация) - Забывают, что
mergeпо умолчанию делает inner join
Примеры вопросов
Что делает
df.groupby('city').size()в Pandas? Возвращает количество строк на каждую группу city — включая строки с NULL в других колонках.Что вернёт
np.mean([1, 2, 3])? 2.0 — среднее арифметическое.Что делает метод
drop_duplicates()в Pandas? Убирает дубликаты строк. По умолчанию сравнивает все колонки и оставляет первое вхождение.Чем отличается list от tuple? list — изменяемый (можно добавлять, удалять элементы), tuple — нет. tuple быстрее и может быть ключом словаря.
Что сделает
df.merge(df2)без параметров? Inner join по всем одноимённым колонкам. Если нет общих колонок — ошибка.Когда использовать
apply(), а когда векторизацию? Векторизация — всегда, когда возможно.apply()применяет функцию построчно — это медленно на больших DataFrame.
В Карьернике 200+ вопросов по Python — от базовых типов до продвинутого pandas.
Другие темы
- Подготовка к собеседованию аналитика данных
- Вопросы по SQL на собеседовании
- A/B тестирование: вопросы на собеседовании
- Продуктовая аналитика: собеседование
- Статистика и вероятности
- Задачи на логику для аналитика
Как готовиться к Python-части
Фокус на pandas — это 70% вопросов по Python для аналитика. groupby, merge, фильтрация, работа с NULL.
Разберите аналогии с SQL — если знаете SQL, pandas станет понятнее:
groupby= GROUP BY,merge= JOIN,query()= WHERE.Практикуйтесь на коротких задачах — не нужно писать пайплайны на 100 строк. На собеседовании проверяют, понимаете ли вы, что делает каждый метод.
Знайте подводные камни — разница size vs count, loc vs iloc, copy vs view. Это любимые вопросы интервьюеров.
FAQ
Нужен ли Python для аналитика данных?
В большинстве компаний — да. Даже если основной инструмент BI (Tableau, Metabase), Python нужен для автоматизации, сложных расчётов и работы с данными, которые не ложатся в SQL.
Какой уровень Python нужен для junior-аналитика?
Базовый pandas: читать CSV, фильтровать, группировать, строить графики. Не нужно знать ООП, декораторы или async — это для разработчиков.
Спрашивают ли алгоритмы на собеседовании аналитика?
Редко. Алгоритмические задачи — это для software engineer. Аналитика проверяют на работу с данными, а не на сортировку массивов.