Question 1

В массиве `scores` формы (100, 7) строки — пользователи, столбцы — дни недели. Как посчитать среднее значение для каждого пользователя (по строкам)?

Accepted Answer

Среднее по строкам в двумерном массиве считается через `axis=1`. Если строки — пользователи, то «среднее по пользователю» означает свернуть столбцы (дни недели) и оставить одну величину на строку. Это `np.mean(scores, axis=1)`, результат будет одномерный массив длины 100. `axis=0` свернул бы строки и дал бы среднее по каждому дню недели (длина 7). Без указания оси возвращается одно число — среднее по всему массиву.

Question 2

Почему при работе с числовыми данными для аналитики часто предпочитают `ndarray` вместо Python `list`?

Accepted Answer

Однородность типов и компактное хранение делают `ndarray` удобным для численной аналитики. Python `list` может содержать разные типы, но это неоптимально для больших числовых массивов. NumPy `ndarray` обычно имеет один `dtype`, что позволяет хранить данные плотнее и выполнять векторные операции быстрее. Утверждение про разные типы в `ndarray` ошибочно: однородность типов — это плюс, а не минус. `Broadcasting` поддерживает именно `ndarray`, а не `list`. На диск массив сам не уходит — это работа специальных библиотек, а не базового NumPy.

Question 3

Есть матрица продаж `sales` формы (12, 5): строки — месяцы, столбцы — продукты. Как получить сумму продаж по каждому продукту за все месяцы?

Accepted Answer

Чтобы получить суммы по столбцам, нужно сворачивать строки — то есть указать `axis=0`. В табличной логике «продукты в столбцах» означает: агрегировать вдоль строк (месяцев) и оставить столбцы — это `np.sum(sales, axis=0)`. Если перепутать ось, легко получить «правильные числа не того смысла» — частая ошибка в аналитике. `np.sum(sales)` без оси даёт одно число общей суммы, а `axis=2` упадёт с ошибкой для двумерного массива.

Question 4

Вы считаете метрику по большому массиву чисел и выбираете NumPy вместо Python `list`. Почему операции вроде `arr * 1.1` на `ndarray` обычно быстрее, чем цикл `for` по `list`?

Accepted Answer

Ускорение `ndarray` идёт за счёт однородного типа, непрерывной памяти и векторизованного C-кода, который минимизирует накладные расходы Python. Массив NumPy фиксирует один dtype, лежит в непрерывной области памяти и обрабатывается компилированными C-функциями (BLAS/SIMD). Поэтому `arr * 1.1` запускает один внутренний цикл на C, а не цикл по объектам Python. У обычного `list` всё наоборот: он хранит ссылки на разнотипные объекты, и каждое умножение требует диспетчеризации Python. NumPy не запускает GPU автоматически — для этого нужны отдельные библиотеки (например, CuPy/JAX). Хранение «разных типов в одном массиве» — это про `dtype=object`, и оно как раз медленнее обычного NumPy.

Question 5

Пусть `m = np.array([[1, 2, 3], [4, 5, 6]])`. Чему равен `np.mean(m, axis=1)`?

Accepted Answer

`axis=1` агрегирует по столбцам внутри строки: среднее по каждой строке. Для 2D массива `axis=1` означает: «свернуть столбцы, получить результат на каждую строку». В первой строке среднее (1+2+3)/3 = 2, во второй (4+5+6)/3 = 5, поэтому результат `np.array([2., 5.])`. Это типичный приём для расчёта метрик по объектам (строкам).

NumPy: основы: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Python