Question 1

С каких системных представлений начинаешь диагностику живой базы?

Accepted Answer

Первый - `pg_stat_activity`: кто сейчас подключён, что выполняет, как
долго, в каком состоянии (active, idle, idle in transaction), чего ждёт
(`wait_event`). По нему сразу видно зависшие транзакции и блокировки.
`pg_stat_statements` (расширение) - агрегат по нормализованным запросам:
суммарное время, число вызовов, среднее, чтения буферов; главный
инструмент «какие запросы съедают сервер». `pg_locks` показывает кто кого
блокирует. `pg_stat_user_tables` и `pg_stat_user_indexes` - сканы, мёртвые
версии, последний autovacuum, использование индексов. `pg_stat_io` (PG 16)
даёт картину чтений и записей по типам. Это набор, с которого начинается
любой разбор инцидента.

Question 2

Как найти и разобрать медленный запрос в продакшене?

Accepted Answer

Сначала находим виновника, потом разбираем. Находим через
`pg_stat_statements`: сортируем по суммарному времени (`total_exec_time`)
или по среднему и смотрим топ. Параллельно включаем лог медленных
запросов (`log_min_duration_statement`), чтобы ловить конкретные
выполнения с параметрами, и `auto_explain` для автоматического плана
долгих запросов прямо в лог. Найдя запрос, гоняем `EXPLAIN (ANALYZE,
BUFFERS)` и сравниваем оценки с фактом, ищем где улетает кардинальность,
есть ли seq scan там, где просится индекс, не уходит ли сортировка на
диск. Правило: сначала измеряй (`pg_stat_statements`, EXPLAIN), потом
меняй, а не наоборот.

Question 3

Зачем нужен пул соединений и почему «просто добавить коннектов» плохо?

Accepted Answer

Каждое соединение в PostgreSQL - отдельный процесс ОС со своей памятью.
Тысяча коннектов это тысяча процессов: они конкурируют за CPU,
переключение контекста съедает время, а суммарный `work_mem` способен
выесть всю память, потому что он считается на операцию, а не на сервер.
Поэтому больше соединений почти всегда означает медленнее, а не быстрее.
Решение - пул: pgbouncer держит небольшое число реальных коннектов к базе
и мультиплексирует на них множество клиентских. Режим transaction pooling
отдаёт серверный коннект на время транзакции и возвращает в пул - так
сотни клиентов работают через десятки реальных соединений. Разумный
потолок реальных коннектов обычно в районе числа ядер, помноженного на
небольшой коэффициент.

Question 4

shared_buffers, work_mem, maintenance_work_mem - как про них думать?

Accepted Answer

`shared_buffers` - общий буферный кеш на весь сервер, разумный старт около
четверти ОЗУ; остальное оставляют кешу ОС, потому что PostgreSQL опирается
и на него. `work_mem` - память на одну операцию сортировки или хеша в
запросе, не на запрос и не на сервер: сложный запрос с несколькими сортами
и параллелизмом может занять несколько `work_mem` сразу, а сотни
соединений умножают это многократно - поэтому его держат умеренным и
поднимают точечно. `maintenance_work_mem` - память под обслуживание
(vacuum, `CREATE INDEX`), её можно ставить щедро, потому что таких
операций немного одновременно. Ключевая ловушка - думать, что `work_mem`
выделяется один раз на сервер.

Question 5

Логический дамп против физического бэкапа с PITR - когда что?

Accepted Answer

Логический бэкап (`pg_dump`/`pg_dumpall`) выгружает данные как набор
команд или архив: переносимо между версиями и платформами, удобно для
отдельной базы или таблицы, но медленно восстанавливается на больших
объёмах и даёт снимок только на момент дампа. Физический бэкап
(`pg_basebackup` или копия каталога) плюс непрерывный архив WAL дают PITR
(point-in-time recovery): можно восстановить кластер на любой момент
между базовым бэкапом и концом архива - например на секунду до
ошибочного `DELETE`. Для больших продакшенов база это физический бэкап
плюс архив WAL; логический дамп идёт дополнением для переносимости и
выборочного восстановления. И то и другое надо регулярно проверять
пробным восстановлением.

Question 6

Назови частые анти-паттерны эксплуатации PostgreSQL и чем они вредны.

Accepted Answer

Отключать autovacuum «чтобы не мешал» - прямой путь к раздуванию и
аварии wraparound. Держать долгие и idle in transaction транзакции - они
стопорят горизонт и копят мусор. Лепить индексы на каждый столбец -
каждый замедляет запись и ест место, а планировщик их часто не берёт.
Гнать `ALTER TABLE` на горячей таблице без `lock_timeout` - очередь
блокировок встаёт колом. Раздувать число соединений вместо пула. Хранить
гигантские значения без оглядки на TOAST и UPDATE-нагрузку. Делать
`SELECT *` и тянуть TOAST там, где он не нужен. Не мониторить возраст
транзакций и слотов репликации. Каждый пункт - типовая причина реального
инцидента, а не теория.

Question 7

Что такое раздувание таблицы, как его обнаружить и убрать?

Accepted Answer

Раздувание (bloat) - место, занятое мёртвыми версиями строк и пустотами в
страницах, которое уже не несёт полезных данных. Оно растёт, когда
мёртвых версий появляется больше, чем успевает убирать vacuum: тяжёлая
UPDATE/DELETE-нагрузка, отстающий autovacuum, удержанный горизонт от
долгих транзакций. Симптомы: таблица и индексы растут, а число живых строк
нет; index-only scan вырождается в Heap Fetches. Обнаруживают через
`pg_stat_user_tables` (`n_dead_tup`), расширение `pgstattuple` для точной
оценки, и оценочные запросы по каталогу. Лечат по нарастающей: наладить
autovacuum и убрать долгие транзакции (профилактика), а для уже раздутого
- `VACUUM FULL`, `CLUSTER` или `pg_repack`/`REINDEX CONCURRENTLY` для
  индексов.

Question 8

Что входит в базовую безопасность движка PostgreSQL?

Accepted Answer

Несколько слоёв. Аутентификация - `pg_hba.conf`: кто, откуда и каким
методом подключается; ставят `scram-sha-256` вместо устаревшего md5 и
закрывают `trust` на проде. Авторизация - роли и привилегии по принципу
наименьших прав: приложение не должно ходить суперпользователем, у него
своя роль с грантами только на нужные объекты, схема `public` не открыта
на запись всем. Транспорт - TLS для соединений по сети. Защита данных -
разделение ролей на владельца схемы и рабочую роль приложения, аккуратный
`SET ROLE`, отзыв лишних `GRANT`. Плюс гигиена: не хранить пароли в коде,
ограничить сеть на уровне firewall, держать сервер за периметром, а не на
публичном адресе.

Эксплуатация, наблюдаемость, анти-паттерны