Q: Nested loop, hash join, merge join - когда планировщик выбирает каждый?

Nested loop: для каждой строки внешнего набора ищем совпадения во внутреннем; выгоден, когда внешних строк мало, а внутренний доступ дёшев (обычно индекс). Hash join: по меньшей таблице строится хеш-таблица в памяти, по большей идёт проба; хорош для крупных наборов без полезного порядка, но требует `work_mem` под хеш и работает только по равенству. Merge join: оба входа сортируются (или приходят уже отсортированными по индексу) и сливаются как два упорядоченных списка; выгоден на больших наборах, когда сортировка дешева или порядок уже есть. Выбор делает стоимость: размеры, наличие индексов, доступная память.

Q: Почему планировщик иногда берёт seq scan вместо индекса, который вроде бы есть?

Индексный доступ дешевле только при низкой селективности: когда условие выбирает малую долю строк. Каждая строка, найденная по индексу, обычно требует случайного чтения страницы кучи - а случайное чтение дорогое. Когда условие проходит, скажем, треть таблицы, дешевле прочитать её всю подряд (seq scan), чем делать сотни тысяч случайных обращений по индексу. Есть точка перелома по доле строк, после которой seq scan выигрывает по стоимости. Поэтому на «широких» условиях планировщик сознательно игнорирует индекс, и это правильно. Сдвигают эту точку `random_page_cost`, корреляция данных и наличие index-only scan.

Q: Как планировщик выбирает порядок соединений и что такое GEQO?

Число вариантов порядка соединений растёт факториально с числом таблиц. До небольшого порога планировщик честно перебирает их динамическим программированием и находит оптимум. Когда таблиц много (больше `geqo_threshold`, по умолчанию 12), полный перебор становится слишком дорогим, и включается генетический оптимизатор GEQO: он ищет хороший, но не гарантированно лучший порядок за разумное время. На число рассматриваемых вариантов влияют `join_collapse_limit` и `from_collapse_limit`: они задают, насколько глубоко разворачивать подзапросы и явные JOIN в общий пул для перебора. Явный порядок JOIN при низком лимите фиксируется как есть.

Q: Когда обычной статистики не хватает и нужна расширенная?

Обычная статистика собирается по каждому столбцу отдельно и предполагает их независимость. Когда столбцы коррелируют, эта посылка ломается. Классика: `city` и `region` - запрос `WHERE city='Москва' AND region='Московская'` планировщик оценит как произведение двух селективностей и сильно недооценит число строк, потому что на деле эти условия почти дублируют друг друга. Расширенная статистика (`CREATE STATISTICS`) учит планировщик зависимостям: тип `dependencies` ловит функциональные зависимости, `ndistinct` - число различных комбинаций, `mcv` - частые сочетания значений. После неё оценка кардинальности на коррелированных столбцах становится близкой к реальной.

Q: Как читать EXPLAIN ANALYZE и на что смотреть в первую очередь?

EXPLAIN показывает план с оценками, EXPLAIN ANALYZE ещё и выполняет запрос, добавляя фактические числа. Главный приём диагностики - сравнивать `rows` оценочные и `actual rows` на каждом узле. Сильное расхождение (на порядок и больше) означает, что планировщик ошибся в кардинальности, и план построен на ложных числах. Дальше смотрят `loops` (узел в nested loop выполняется много раз), `Rows Removed by Filter` (читаем много, выбрасываем много - просится индекс), и `Buffers` (сколько страниц реально прочитано). Узкое место ищут снизу вверх: первая крупная ошибка оценки или самый дорогой по факту узел.

Question 1

Какие стадии проходит запрос от текста до результата?

Accepted Answer

Четыре стадии. Разбор (parse): текст превращается в дерево, проверяются
синтаксис и имена объектов по системному каталогу. Переписывание
(rewrite): применяются правила и представления - например, обращение к
view разворачивается в подзапрос, накладывается защита строк (RLS).
Планирование (plan): стоимостный оптимизатор перебирает способы доступа
и порядки соединений и выбирает самый дешёвый план. Исполнение (execute):
дерево узлов плана гоняется по модели «тяни строку сверху» (volcano),
каждый узел запрашивает строки у дочерних по одной. Разделение на стадии
объясняет, почему prepared statement может планироваться один раз, а
исполняться много.

Question 2

Что такое cost в плане и из чего он складывается? Это время?

Accepted Answer

Cost - не время, а безразмерная оценка работы в условных единицах.
Базовые кирпичи задаются параметрами: `seq_page_cost` (чтение страницы
подряд, опора 1.0), `random_page_cost` (случайное чтение, по умолчанию
4.0), `cpu_tuple_cost`, `cpu_index_tuple_cost`, `cpu_operator_cost`.
Стоимость узла складывается из числа страниц на стоимость страницы плюс
число строк на стоимость обработки строки. Например seq scan это
примерно `relpages * seq_page_cost + reltuples * cpu_tuple_cost`.
Оптимизатор сравнивает суммарные cost вариантов и берёт минимальный.
Поэтому на SSD имеет смысл снижать `random_page_cost` - случайное чтение
там почти как последовательное.

Question 3

Чем startup cost отличается от total cost и при чём тут LIMIT?

Accepted Answer

У каждого узла плана две оценки: startup cost - работа до того, как узел
отдаст первую строку, и total cost - работа до последней строки. У seq
scan startup почти нулевой: первую строку он отдаёт сразу. У сортировки
или хеш-агрегации startup высокий: пока не прочитаны все входные строки,
первой на выходе не будет. Это важно для `LIMIT`: при `LIMIT 10`
оптимизатор смотрит не на total, а на стоимость получения первых строк,
и план с дешёвым стартом (например index scan по нужному порядку) может
выиграть у плана с дешёвым total, но дорогим стартом (seq scan плюс
сортировка).

Question 4

Откуда планировщик берёт оценку числа строк? Что такое селективность?

Accepted Answer

Планировщик опирается на статистику, которую собирает `ANALYZE` и хранит
`pg_statistic` (читаемо через `pg_stats`). Для столбца это доля NULL,
число различных значений (`n_distinct`), список самых частых значений
(MCV) с их частотами и гистограмма границ для остальных значений, плюс
корреляция физического порядка с логическим. Селективность - доля строк,
которые пройдут условие, число от 0 до 1. Для `= 'x'` берётся частота из
MCV или `1/n_distinct`; для `>`/`<` - доля по гистограмме. Кардинальность
узла это селективность на число строк. Ошибка оценки внизу плана
распространяется вверх и портит выбор соединений.

Question 5

Nested loop, hash join, merge join - когда планировщик выбирает каждый?

Accepted Answer

Nested loop: для каждой строки внешнего набора ищем совпадения во
внутреннем; выгоден, когда внешних строк мало, а внутренний доступ дёшев
(обычно индекс). Hash join: по меньшей таблице строится хеш-таблица в
памяти, по большей идёт проба; хорош для крупных наборов без полезного
порядка, но требует `work_mem` под хеш и работает только по равенству.
Merge join: оба входа сортируются (или приходят уже отсортированными по
индексу) и сливаются как два упорядоченных списка; выгоден на больших
наборах, когда сортировка дешева или порядок уже есть. Выбор делает
стоимость: размеры, наличие индексов, доступная память.

Question 6

Почему планировщик иногда берёт seq scan вместо индекса, который вроде бы есть?

Accepted Answer

Индексный доступ дешевле только при низкой селективности: когда условие
выбирает малую долю строк. Каждая строка, найденная по индексу, обычно
требует случайного чтения страницы кучи - а случайное чтение дорогое.
Когда условие проходит, скажем, треть таблицы, дешевле прочитать её всю
подряд (seq scan), чем делать сотни тысяч случайных обращений по индексу.
Есть точка перелома по доле строк, после которой seq scan выигрывает по
стоимости. Поэтому на «широких» условиях планировщик сознательно
игнорирует индекс, и это правильно. Сдвигают эту точку `random_page_cost`,
корреляция данных и наличие index-only scan.

Question 7

Как планировщик выбирает порядок соединений и что такое GEQO?

Accepted Answer

Число вариантов порядка соединений растёт факториально с числом таблиц.
До небольшого порога планировщик честно перебирает их динамическим
программированием и находит оптимум. Когда таблиц много (больше
`geqo_threshold`, по умолчанию 12), полный перебор становится слишком
дорогим, и включается генетический оптимизатор GEQO: он ищет хороший, но
не гарантированно лучший порядок за разумное время. На число
рассматриваемых вариантов влияют `join_collapse_limit` и
`from_collapse_limit`: они задают, насколько глубоко разворачивать
подзапросы и явные JOIN в общий пул для перебора. Явный порядок JOIN при
низком лимите фиксируется как есть.

Question 8

Когда обычной статистики не хватает и нужна расширенная?

Accepted Answer

Обычная статистика собирается по каждому столбцу отдельно и предполагает
их независимость. Когда столбцы коррелируют, эта посылка ломается.
Классика: `city` и `region` - запрос `WHERE city='Москва' AND
region='Московская'` планировщик оценит как произведение двух
селективностей и сильно недооценит число строк, потому что на деле эти
условия почти дублируют друг друга. Расширенная статистика
(`CREATE STATISTICS`) учит планировщик зависимостям: тип `dependencies`
ловит функциональные зависимости, `ndistinct` - число различных
комбинаций, `mcv` - частые сочетания значений. После неё оценка
кардинальности на коррелированных столбцах становится близкой к реальной.

Question 9

Как читать EXPLAIN ANALYZE и на что смотреть в первую очередь?

Accepted Answer

EXPLAIN показывает план с оценками, EXPLAIN ANALYZE ещё и выполняет
запрос, добавляя фактические числа. Главный приём диагностики -
сравнивать `rows` оценочные и `actual rows` на каждом узле. Сильное
расхождение (на порядок и больше) означает, что планировщик ошибся в
кардинальности, и план построен на ложных числах. Дальше смотрят `loops`
(узел в nested loop выполняется много раз), `Rows Removed by Filter`
(читаем много, выбрасываем много - просится индекс), и `Buffers`
(сколько страниц реально прочитано). Узкое место ищут снизу вверх: первая
крупная ошибка оценки или самый дорогой по факту узел.

Планировщик, стоимость, статистика, соединения