Question 1

Зачем нужен MVCC? Что он даёт по сравнению с блокировкой на чтение?

Accepted Answer

MVCC (multiversion concurrency control) держит несколько версий одной
строки одновременно. Читатель видит снимок данных на момент начала
запроса или транзакции и не ждёт писателей, а писатель не ждёт
читателей. Главное правило: чтение не блокирует запись, запись не
блокирует чтение. Цена - старые версии накапливаются как мусор, и его
надо вычищать (этим занят vacuum). Альтернатива из старых СУБД -
блокировать строку на чтение - даёт меньше мусора, но превращает
конкурентную нагрузку в очередь.

Question 2

Как PostgreSQL решает, видна ли версия строки текущей транзакции?

Accepted Answer

У версии есть `xmin` (кто создал) и `xmax` (кто удалил или заблокировал).
Транзакция берёт снимок: своё число, граница «всё до неё точно
завершено» и список ещё идущих транзакций. Версия видна, если `xmin`
завершилась успешно и попадает в прошлое снимка, а `xmax` либо пуст,
либо принадлежит ещё не завершённой или откатанной транзакции. Статус
транзакции (закоммичена/откатана) лежит в clog, но проверять его каждый
раз дорого, поэтому первый, кто посмотрел, выставляет hint bits в
`t_infomask` - дальше ответ берётся из самой строки.

Question 3

Что физически представляет собой снимок данных? Это копия?

Accepted Answer

Снимок - не копия данных, а маленький набор чисел: граница, ниже которой
все транзакции уже завершены (`xmin` снимка), граница, выше которой все
ещё не начинались (`xmax` снимка), и явный список xid, которые были
активны в момент взятия снимка. Видимость любой версии строки
вычисляется по этим числам на лету. Поэтому снимок дёшев - его можно
взять мгновенно и даже экспортировать в другую сессию
(`pg_export_snapshot`), чтобы `pg_dump` параллельными процессами читал
согласованную картину.

Question 4

Какие уровни изоляции есть в PostgreSQL и какие аномалии каждый отсекает?

Accepted Answer

Стандарт описывает четыре уровня, PostgreSQL реализует три различимых:
Read Committed (дефолт), Repeatable Read и Serializable; запрошенный
Read Uncommitted ведёт себя как Read Committed, грязного чтения тут не
бывает. Read Committed берёт новый снимок на каждый оператор - возможны
non-repeatable read и phantom. Repeatable Read берёт один снимок на всю
транзакцию - повторные чтения стабильны, но возможна аномалия записи
(write skew). Serializable добавляет отслеживание зависимостей через
предикатные блокировки (SSI) и гарантирует результат, как при
последовательном выполнении.

Question 5

Repeatable Read против Serializable: что именно ловит SSI?

Accepted Answer

Repeatable Read даёт стабильный снимок: внутри транзакции данные не
меняются под ногами. Но два таких снимка могут разойтись на записи:
каждая транзакция читает одно состояние, обе пишут, и итог невозможен
ни при каком последовательном порядке - это write skew. Serializable
добавляет SSI (serializable snapshot isolation): сервер отслеживает
опасные циклы зависимостей чтение-запись через предикатные (SIRead)
блокировки и откатывает одну из транзакций с ошибкой сериализации.
Гарантия - результат эквивалентен какому-то последовательному порядку.

Question 6

Почему UPDATE в PostgreSQL это фактически новая версия строки? Чем это аукается?

Accepted Answer

UPDATE не правит строку на месте: он помечает старую версию через `xmax`
и кладёт новую версию с новым `xmin`. Старая живёт, пока её видит хоть
один снимок, потом её заберёт vacuum. Отсюда два следствия. Первое -
раздувание: интенсивные UPDATE плодят мёртвые версии быстрее, чем их
чистят. Второе - индексы: по умолчанию новая версия требует новых
записей во всех индексах таблицы. Спасает HOT-обновление - если ни одна
проиндексированная колонка не менялась и в странице есть место, новая
версия остаётся в той же странице без правки индексов.

Question 7

Что такое clog и hint bits и зачем они нужны?

Accepted Answer

В версии строки записан только номер транзакции-создателя, но не её
исход. Закоммичена ли транзакция `xmin` или откатана, хранит clog
(commit log, каталог `pg_xact`) - по два бита на транзакцию. Проверять
clog при каждом чтении дорого, поэтому первый, кто определил исход,
ставит в `t_infomask` строки hint bits: «xmin закоммичена» или
«откатана». Дальше видимость считается без похода в clog. Побочный
эффект: первый SELECT после массовой вставки «грязнит» страницы,
проставляя hint bits, и порождает запись на диск, хотя данные не
менялись.

Question 8

Чем виртуальный xid отличается от настоящего и при чём тут подтранзакции?

Accepted Answer

Настоящий номер транзакции (xid) - дефицитный 32-битный ресурс, его жаль
тратить на транзакции, которые ничего не пишут. Поэтому пока транзакция
только читает, ей выдают виртуальный xid (пара: номер бэкенда плюс
локальный счётчик), а настоящий присваивают лениво, при первой записи.
Подтранзакции (savepoint, блок с обработкой исключения в PL/pgSQL) тоже
получают свои xid; их соответствие родителю хранит `pg_subtrans`.
Откат к savepoint помечает версии подтранзакции невидимыми, не трогая
родителя.

Снимки, xmin/xmax, уровни изоляции