Question 1

На большой таблице `events` запрос `SELECT * FROM events ORDER BY created_at DESC LIMIT 100` неожиданно работает быстро. Какое объяснение наиболее вероятно при наличии индекса по `created_at`?

Accepted Answer

Связка `ORDER BY` и `LIMIT` часто ускоряется индексом по полю сортировки. Если есть подходящий индекс по `created_at`, планировщик может читать строки уже в нужном порядке и остановиться после `LIMIT 100`. Тогда дорогая операция `Sort` не нужна или становится значительно дешевле. Поэтому одинаковый запрос без индекса может быть на порядки медленнее.

Question 2

В плане `EXPLAIN` для запроса по пользователю вы видите проход по индексу `orders_user_id_idx` для таблицы заказов. Какой вывод наиболее корректен?

Accepted Answer

Проход по индексу позволяет найти подходящие строки быстрее, чем последовательное сканирование всей таблицы. При проходе по индексу база сначала находит подходящие записи в индексе (например, по идентификатору пользователя), а затем читает соответствующие строки таблицы. Это особенно выгодно, когда условие в `WHERE` отбирает малую долю строк. Реальная скорость зависит от объёма возвращаемых данных и количества дисковых чтений, поэтому проход по индексу не является автоматической гарантией максимальной производительности.

Question 3

В выводе `EXPLAIN` вы видите узел `Seq Scan on orders`. Что это обычно означает в плане выполнения запроса?

Accepted Answer

`Seq Scan` — последовательное чтение всей таблицы с применением фильтра к каждой строке, без использования индекса. При `Seq Scan` планировщик считает, что проще пройтись по всем строкам, чем прыгать по индексу. Это нормально для маленьких таблиц или когда условие `WHERE` отбирает большую долю данных. Узкое место возникает, когда таблица большая, а фильтр должен был сильно сузить выборку — тогда стоит проверить наличие подходящего индекса. Кэш запросов и блокировки — это про другие механизмы, не про последовательное чтение.

Question 4

В выводе `EXPLAIN` вы видите оценку `cost=0.00..431.00`. Какой вывод аналитик может сделать безопасно?

Accepted Answer

`cost` в `EXPLAIN` — это оценка планировщика для сравнения планов, а не секунды или строки. В Postgres-подобных СУБД `cost` используется планировщиком, чтобы выбрать один план из нескольких. Значения помогают прикинуть «дороже/дешевле» на одной и той же базе при схожих условиях. Но переводить `cost` в секунды и обещать точное время выполнения по `EXPLAIN` нельзя. Это не количество строк (для этого есть `rows`) и не объём памяти — единицы условные, привязаны к стоимости последовательного чтения страницы.

Question 5

В `EXPLAIN` вы видите два последовательных шага: `Seq Scan` с `cost=0.00..120000.00` и затем `Aggregate` с `cost=120000.00..120500.00`. С чего логичнее начать поиск узкого места?

Accepted Answer

Ищите тяжёлые узлы по `cost` и `rows` и помните, что «нижние» шаги кормят «верхние». Обычно имеет смысл смотреть на узлы, которые читают или генерируют много строк (часто это сканы и сортировки). Если «внизу» много работы, то «наверху» это уже не исправить. Поле `cost` — не время выполнения, но оно помогает быстро понять, где планировщик ожидает основные затраты, а `rows` показывает объём данных между узлами.

EXPLAIN и оптимизация: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: SQL