Question 1

Зачем нужен VACUUM и что именно он делает?

Accepted Answer

Каждый UPDATE и DELETE оставляет мёртвую версию строки - она больше
никому не видна, но занимает место в странице. VACUUM проходит по
таблице, находит версии, которые не видны ни одному живому снимку, и
освобождает их слоты под переиспользование; место остаётся за таблицей,
но внутри страниц появляются дырки под новые строки. Заодно он обновляет
карту свободного места (FSM) и карту видимости (VM), подрезает
указатели строк и продвигает заморозку. Обычный VACUUM не отдаёт место
файловой системе и работает без блокировки на запись.

Question 2

Что такое горизонт транзакции и почему долгая транзакция мешает очистке?

Accepted Answer

Горизонт - это номер самой старой транзакции, чей снимок ещё может
понадобиться. Версию строки можно убрать, только если она стала мёртвой
до горизонта: иначе её ещё кто-то имеет право увидеть. Любая долгая
транзакция (открытый `BEGIN`, забытый сеанс в состоянии idle in
transaction, долгий аналитический запрос на Repeatable Read) держит
горизонт на месте. Пока он не двигается, vacuum видит мёртвые версии,
но не имеет права их удалить - они копятся, таблица раздувается, индексы
пухнут. Рогов называет это горизонтом событий: за ним всё уже
зафиксировано, и чистить безопасно.

Question 3

Что такое HOT-обновление и как связана с ним внутристраничная очистка?

Accepted Answer

HOT (heap-only tuple) - обновление, при котором новая версия строки
остаётся в той же странице и на неё не заводится записей в индексах.
Условие: ни одна проиндексированная колонка не изменилась и в странице
хватило места. Старая версия ссылается на новую через `t_ctid`, образуя
HOT-цепочку, а указатель строки превращается в redirect. Когда место в
странице кончается, срабатывает внутристраничная очистка (HOT-prune):
она схлопывает цепочки мёртвых версий и освобождает место, не запуская
полноценный vacuum по всей таблице. Это происходит прямо во время
обычных запросов.

Question 4

Что такое заморозка и wraparound? Чем грозит переполнение счётчика транзакций?

Accepted Answer

Номер транзакции - 32 бита, и он по кругу переполняется. Видимость
считается по принципу «xmin в прошлом», а «прошлое» на кольце
относительно. Чтобы старые строки не стали внезапно «из будущего» и не
исчезли, vacuum их замораживает: помечает как видимые всегда и забывает
их реальный xmin. Заморозка двигает `relfrozenxid` таблицы. Если
заморозка отстаёт и возраст таблицы подбирается к пределу, autovacuum
запускает агрессивную заморозку, а на самой грани сервер уходит в
защиту: перестаёт выдавать новые xid и пускает только очистку. Это и
есть авария wraparound.

Question 5

Когда срабатывает autovacuum и какие параметры решают его поведение?

Accepted Answer

Autovacuum просыпается по таймеру (`autovacuum_naptime`) и для каждой
таблицы считает порог: базовое число плюс доля от размера
(`autovacuum_vacuum_threshold` плюс
`autovacuum_vacuum_scale_factor` умножить на число строк). Накопилось
больше мёртвых версий - запускается vacuum. Отдельно следит за
возрастом ради заморозки (`autovacuum_freeze_max_age`). Интенсивность
душит cost-based задержка (`autovacuum_vacuum_cost_delay`/`cost_limit`),
чтобы не выедать диск. На больших таблицах дефолтный scale factor 0.2
слишком велик: vacuum приходит редко и поздно, поэтому его снижают
поштучно через `ALTER TABLE ... SET`.

Question 6

VACUUM против VACUUM FULL: в чём разница и когда что применять?

Accepted Answer

Обычный VACUUM работает онлайн: помечает мёртвые версии переиспользуемыми
внутри таблицы, не блокирует чтение и запись, но не уменьшает файл на
диске. VACUUM FULL переписывает таблицу в новый файл без мёртвых версий,
физически уменьшает её и отдаёт место ОС, но берёт ACCESS EXCLUSIVE -
таблица недоступна на всё время и нужно место под копию. Поэтому
повседневная гигиена - обычный vacuum и autovacuum; VACUUM FULL это
разовая операция, когда таблица уже сильно раздулась и есть окно.
Альтернатива без полной блокировки - `pg_repack`.

Question 7

Что такое MultiXact и почему у него свой wraparound?

Accepted Answer

Когда одну строку одновременно блокируют несколько транзакций (например
несколько `SELECT FOR SHARE`), в `xmax` нельзя записать один номер. Тогда
заводится MultiXact - идентификатор группы транзакций, а сам список
участников лежит в SLRU-каталогах `pg_multixact`. У MultiXact свой
32-битный счётчик и, значит, свой wraparound и своя заморозка
(`autovacuum_multixact_freeze_max_age`). На нагрузке с активной
блокировкой строк (очереди задач, FOR SHARE) MultiXact растёт быстро и
иногда становится узким местом раньше обычного xid.

Question 8

Чем внутристраничная очистка отличается от полноценного vacuum?

Accepted Answer

Внутристраничная очистка (page pruning) случается прямо во время
обычного запроса, когда он трогает страницу: PostgreSQL схлопывает HOT-
цепочки и помечает мёртвые версии переиспользуемыми в пределах одной
этой страницы. Это дёшево и не требует прохода по таблице, но не трогает
индексы и не обновляет карту видимости целиком. Полноценный vacuum идёт
по всей таблице, чистит ссылки в индексах, обновляет FSM и VM, двигает
заморозку. Prune снимает давление между запусками vacuum, но не заменяет
его.

Vacuum, freeze, wraparound, autovacuum