Вопросы по Python на собеседовании аналитика

Что спрашивают по Python

Python на собеседовании аналитика — это не алгоритмы и не разработка. Проверяют умение работать с данными: загрузить, почистить, агрегировать, визуализировать.

Пайплайн обработки данных в pandas

Основные темы:

pandas — ядро вопросов:

  • groupby, merge, join — аналоги SQL-операций
  • Работа с пропусками: fillna, dropna, isna
  • Фильтрация и создание новых колонок
  • pivot_table и melt
  • Временные ряды: resample, rolling

numpy:

  • Базовые операции: mean, std, reshape
  • Векторизация vs циклы
  • Broadcasting

Общий Python:

  • Типы данных: list, dict, set, tuple — когда какой
  • List comprehensions
  • Работа со строками
  • lambda и apply

Почему проваливают Python-часть

Аналитики часто пишут код «на автопилоте» — знают, что df.groupby().agg() работает, но не могут объяснить, что вернёт конкретный вызов. На собеседовании спрашивают именно понимание, а не умение загуглить.

Частые проблемы:

  • Путают size() и count() в groupby — size считает все строки, count пропускает NULL
  • Не знают разницу между loc и iloc
  • Не могут объяснить, почему df[df.col > 5] работает (булева индексация)
  • Забывают, что merge по умолчанию делает inner join

Примеры вопросов

  1. Что делает df.groupby('city').size() в Pandas? Возвращает количество строк на каждую группу city — включая строки с NULL в других колонках.

  2. Что вернёт np.mean([1, 2, 3])? 2.0 — среднее арифметическое.

  3. Что делает метод drop_duplicates() в Pandas? Убирает дубликаты строк. По умолчанию сравнивает все колонки и оставляет первое вхождение.

  4. Чем отличается list от tuple? list — изменяемый (можно добавлять, удалять элементы), tuple — нет. tuple быстрее и может быть ключом словаря.

  5. Что сделает df.merge(df2) без параметров? Inner join по всем одноимённым колонкам. Если нет общих колонок — ошибка.

  6. Когда использовать apply(), а когда векторизацию? Векторизация — всегда, когда возможно. apply() применяет функцию построчно — это медленно на больших DataFrame.

В Карьернике 200+ вопросов по Python — от базовых типов до продвинутого pandas.

Другие темы

Как готовиться к Python-части

  1. Фокус на pandas — это 70% вопросов по Python для аналитика. groupby, merge, фильтрация, работа с NULL.

  2. Разберите аналогии с SQL — если знаете SQL, pandas станет понятнее: groupby = GROUP BY, merge = JOIN, query() = WHERE.

  3. Практикуйтесь на коротких задачах — не нужно писать пайплайны на 100 строк. На собеседовании проверяют, понимаете ли вы, что делает каждый метод.

  4. Знайте подводные камни — разница size vs count, loc vs iloc, copy vs view. Это любимые вопросы интервьюеров.

FAQ

Нужен ли Python для аналитика данных?

В большинстве компаний — да. Даже если основной инструмент BI (Tableau, Metabase), Python нужен для автоматизации, сложных расчётов и работы с данными, которые не ложатся в SQL.

Какой уровень Python нужен для junior-аналитика?

Базовый pandas: читать CSV, фильтровать, группировать, строить графики. Не нужно знать ООП, декораторы или async — это для разработчиков.

Спрашивают ли алгоритмы на собеседовании аналитика?

Редко. Алгоритмические задачи — это для software engineer. Аналитика проверяют на работу с данными, а не на сортировку массивов.