Question 1

Как устроен буферный кеш и зачем он, если есть кеш файловой системы?

Accepted Answer

Буферный кеш - общая для всех бэкендов область в разделяемой памяти,
размером `shared_buffers`, нарезанная на слоты по 8 КБ. Любое чтение и
запись страницы идёт через него: бэкенд не лезет в файл напрямую, а
просит страницу у менеджера буферов. Если страница уже там - попадание,
диск не трогается. Кеш ОС тоже есть и работает слоем ниже, но буферный
кеш PostgreSQL знает про MVCC, грязные страницы и WAL, поэтому может
гарантировать правило журнала предзаписи и не отдавать на диск то, что
ещё не зафиксировано в WAL.

Question 2

Как PostgreSQL выбирает, какую страницу вытеснить из буферного кеша?

Accepted Answer

Вместо классического LRU используется clock sweep. У каждого буфера есть
счётчик использования: при обращении он растёт (до небольшого потолка),
а специальный указатель ходит по кругу и на каждом буфере уменьшает
счётчик. Буфер с нулём и без закрепления (pin) становится жертвой. Если
жертва грязная (менялась с момента чтения), её сначала записывают на
диск - но только после того, как соответствующая запись WAL уже там
(правило предзаписи). Горячие страницы успевают подрасти счётчиком и
переживают круг, холодные вытесняются.

Question 3

Зачем нужен WAL и в чём состоит правило предзаписи?

Accepted Answer

WAL (write-ahead log) - последовательный журнал всех изменений страниц.
Правило простое: запись в журнал о том, что страница изменилась, попадает
на диск раньше, чем сама изменённая страница. Поэтому при коммите
достаточно гарантированно записать WAL (один последовательный fsync), а
грязные страницы данных можно сбрасывать лениво потом. Если сервер упадёт,
при старте он проиграет WAL от последней контрольной точки и восстановит
все подтверждённые изменения. Так одна последовательная запись даёт и
долговечность (D в ACID), и быстрый коммит без случайных записей по всей
таблице.

Question 4

Что такое LSN и как идёт восстановление после сбоя?

Accepted Answer

LSN (log sequence number) - монотонный адрес позиции в WAL, по сути
смещение в журнале. У каждой страницы в заголовке хранится LSN последней
применённой к ней записи WAL. При восстановлении сервер берёт точку
последней контрольной точки и проигрывает WAL вперёд: для каждой записи
сравнивает её LSN с LSN страницы и применяет только то, что страница ещё
не видела (идемпотентность по LSN). Дойдя до конца журнала, база
оказывается в согласованном состоянии со всеми подтверждёнными
транзакциями. Те же LSN служат позициями для потоковой репликации.

Question 5

Что такое full-page image и зачем PostgreSQL пишет целую страницу в WAL?

Accepted Answer

Страница 8 КБ не записывается на диск атомарно: при сбое во время записи
можно получить полустраницу (torn page) - часть старая, часть новая.
Чтобы такую страницу можно было восстановить, при первом изменении после
контрольной точки PostgreSQL пишет в WAL её полную копию - full-page
image (FPI). Дальше идут обычные дельты, пока следующая контрольная точка
снова не обнулит счётчик. Управляет этим `full_page_writes` (по умолчанию
включён). FPI - главная причина, почему WAL раздувается сразу после
контрольной точки и почему частые контрольные точки увеличивают объём
журнала.

Question 6

Что делает контрольная точка и как её настройка влияет на нагрузку?

Accepted Answer

Контрольная точка сбрасывает на диск все грязные буферы, накопившиеся до
некоторого LSN, и записывает в WAL отметку: «всё до этой позиции уже в
файлах данных». Это сокращает объём журнала, который придётся проиграть
при восстановлении. Запускается по времени (`checkpoint_timeout`) или по
объёму журнала (`max_wal_size`). Чтобы не было всплеска записи, сброс
размазан во времени параметром `checkpoint_completion_target`. Слишком
частые точки раздувают WAL через FPI и грузят диск; слишком редкие
удлиняют восстановление и копят грязные буферы. Балансируют между
скоростью recovery и ровностью записи.

Question 7

Какие бывают уровни WAL и зачем их повышать?

Accepted Answer

Уровень журнала задаёт, сколько информации пишется в WAL.
`minimal` - только то, что нужно для восстановления после сбоя на этом же
сервере; некоторые массовые операции при нём могут не писать полный
журнал. `replica` (по умолчанию) добавляет данные для потоковой
репликации и архивного восстановления (PITR) - этого хватает для
физических реплик. `logical` пишет ещё больше: достаточно, чтобы
декодировать изменения на уровне строк для логической репликации и CDC.
Чем выше уровень, тем больше объём WAL, поэтому его поднимают ровно под
нужный сценарий.

Question 8

Что такое буферное кольцо и зачем оно для больших последовательных операций?

Accepted Answer

Если позволить большому `SELECT` по таблице крупнее кеша забивать
`shared_buffers`, он вытеснит весь полезный горячий набор. Чтобы этого не
было, для больших последовательных сканов, для `COPY` и для vacuum
выделяется небольшое кольцо буферов (ring buffer): операция крутится
внутри нескольких сотен килобайт и не выбивает чужие горячие страницы.
Близкий, но отдельный механизм - синхронизация сканов
(`synchronize_seqscans`): параллельные seq scan одной таблицы согласуют
стартовую позицию, чтобы читать соседние страницы, пока те ещё горячие в
кеше, поэтому скан может стартовать не с начала файла.

Буферный кеш, WAL, контрольные точки