Q: Где физически живёт таблица в каталоге кластера и как её там найти?

Внутри `PGDATA` основные данные лежат в `base/ / `. Каждая база - свой подкаталог по `oid`, каждое отношение - файлы по `relfilenode`. Большой слой нарезан на сегменты по 1 ГБ. Табличные пространства (`tablespace`) выносят отдельные объекты на другой диск: тогда вместо `base/` используется каталог из `pg_tblspc/`. Найти путь проще всего через `pg_relation_filepath('имя')`, а размеры - через `pg_relation_size` и `pg_total_relation_size` (последний считает с индексами и TOAST).

Question 1

Что лежит внутри страницы 8 КБ? Назови части и куда они растут.

Accepted Answer

Страница - единица чтения и записи, по умолчанию 8 КБ. Внутри четыре
зоны. Заголовок (`PageHeaderData`, 24 байта): контрольная сумма, LSN
последней записи WAL, указатели `pd_lower` и `pd_upper`. Массив
указателей строк (line pointers) - растёт от начала вниз. Сами версии
строк - кладутся с конца вверх. Особая зона (special space) в конце -
для индексов там служебные данные, в heap пустая. Свободное место -
это дырка между `pd_lower` и `pd_upper`; когда она схлопывается, в
страницу больше ничего не лезет.

Question 2

Что хранит заголовок версии строки? Перечисли поля и зачем они.

Accepted Answer

Перед пользовательскими данными у каждой версии строки лежит заголовок
`HeapTupleHeader`, 23 байта плюс выравнивание. Главные поля: `t_xmin` -
номер транзакции, создавшей версию; `t_xmax` - номер транзакции,
удалившей или заблокировавшей её (0, если жива); `t_ctid` - указатель на
следующую версию этой строки (для цепочки UPDATE) или на саму себя;
`t_infomask` и `t_infomask2` - биты состояния (закоммичена ли xmin/xmax,
есть ли NULL'ы, HOT и прочее); `t_hoff` - смещение, где кончается
заголовок с битовой картой NULL'ов и начинаются данные.

Question 3

Что такое ctid и почему на него нельзя смотреть как на стабильный идентификатор строки?

Accepted Answer

`ctid` - физический адрес версии строки: пара `(номер страницы, номер
указателя)`. Он точно говорит, где сейчас лежит версия, и его удобно
использовать внутри одного запроса. Но при любом UPDATE рождается новая
версия с новым `ctid`, а старая остаётся до очистки. После `VACUUM FULL`,
`CLUSTER` или обычной очистки с дефрагментацией адреса вообще
переезжают. Поэтому `ctid` нельзя класть в приложение как ключ строки -
для этого есть первичный ключ.

Question 4

Что такое TOAST, когда он срабатывает и какие у него стратегии хранения?

Accepted Answer

Версия строки обязана влезать в страницу 8 КБ, а значения бывают
длиннее. TOAST (The Oversized-Attribute Storage Technique) выносит
длинные поля наружу: сначала пытается сжать, если всё ещё велико -
режет на куски и кладёт в служебную TOAST-таблицу, а в строке оставляет
указатель. Порог - примерно 2 КБ на строку (`TOAST_TUPLE_THRESHOLD`).
Стратегии на колонку: `plain` (не трогать, только для коротких типов),
`extended` (сжать и при нужде вынести, дефолт для `text`/`jsonb`),
`external` (вынести без сжатия), `main` (сжать, выносить в последнюю
очередь).

Question 5

Почему порядок колонок влияет на размер строки на диске?

Accepted Answer

Поля фиксированной длины в версии строки выравниваются по своей
границе: `bigint` и `double` - по 8 байт, `int` - по 4, `smallint` -
по 2. Если за `boolean` (1 байт) сразу идёт `bigint`, между ними
добавляется 7 байт паддинга, чтобы `bigint` лёг по адресу, кратному 8.
Сгруппируешь широкие поля впереди, а узкие (`bool`, `smallint`) в
хвосте - дырок будет меньше и строка займёт меньше байт. На таблице в
сотни миллионов строк это реальные гигабайты и лишние страницы для
чтения.

Question 6

Что такое forks отношения и чем relfilenode отличается от oid?

Accepted Answer

Каждое отношение на диске - это не один файл, а несколько слоёв (forks).
Основной слой (main) хранит сами страницы с данными. FSM (free space
map) - карта свободного места по страницам. VM (visibility map) -
битовая карта «все версии в странице видны всем» и «все заморожены».
Init - пустой шаблон для unlogged-таблиц. Имя файлов задаёт
`relfilenode`, а не `oid`: `oid` - стабильный идентификатор объекта в
каталоге, а `relfilenode` - имя текущего набора файлов. Команды вроде
`TRUNCATE`, `VACUUM FULL`, `REINDEX` меняют `relfilenode`, оставляя
`oid` прежним.

Question 7

Где физически живёт таблица в каталоге кластера и как её там найти?

Accepted Answer

Внутри `PGDATA` основные данные лежат в `base//`. Каждая база - свой подкаталог по `oid`, каждое отношение - файлы по `relfilenode`. Большой слой нарезан на сегменты по 1 ГБ. Табличные пространства (`tablespace`) выносят отдельные объекты на другой диск: тогда вместо `base/` используется каталог из `pg_tblspc/`. Найти путь проще всего через `pg_relation_filepath('имя')`, а размеры - через `pg_relation_size` и `pg_total_relation_size` (последний считает с индексами и TOAST).

Страница, кортеж, TOAST, файлы отношения