PostgreSQL数据库的物理存储结构主要是指硬盘上存储的文件,包括:数据文件、日志文件、参数文件、控制文件、WAL预写日志文件等等。下面重点讨论一下PostgreSQL的WAL预写日志文件。视频讲解如下:
WAL是Write Ahead Logging的缩写,即预写日志,它是保证数据完整性的一种标准方法。简单来说就是在PostgreSQL数据库中要对数据文件进行修改时必须先写入WAL日志信息,即当WAL日志记录完成了持久化,刷新到永久储存之后才能更改数据文件。根据这个原则就不需要在每次提交事务的时候都刷新数据到磁盘。因为当数据库出现宕机发生数据丢失时,可以重新执行WAL日志来达到恢复数据库的目的。因此WAL日志也可以叫做redo重做日志,因为任何没有写到数据文件上的改动都可以根据日志记录进行重做。
在默认的情况下,单个WAL预写日志文件的大小是16M,通过参数wal_segment_size决定。
postgres=# show wal_segment_size; wal_segment_size ------------------ 16MB (1 row) # 注意:源码安装编译的时候可以通过指定下面的参数更改其大小: ./configure --with-wal-segsize=target_value
在默认情况下,WAL日志保存在pg_wal目录下,例如:
[postgres@mydb pg_wal]$ pwd /home/postgres/training/pgsql/data/pg_wal [postgres@mydb pg_wal]$ tree . ├── 000000010000000000000001 └── archive_status
WAL日志文件名称为16进制的24个字符组成,每8个字符一组,每组的意义如下:
00000001 00000000 00000001 时间线 逻辑ID 物理ID
当一个WAL预写日志文件写满时会自动切换到下一个WAL预写日志文件,而WAL切换的方式也可以是手动切换。例如,当执行pg_switch_wal()后WAL会切换到新的日志。下面展示了操作的过程:
-- 查看当前已有的WAL日志文件 postgres=# select * from pg_ls_waldir(); name | size | modification --------------------------+----------+------------------------ 000000010000000000000001 | 16777216 | 2023-05-20 22:04:53+08 (1 row) -- 进行WAL的手动切换 postgres=# select pg_switch_wal(); pg_switch_wal --------------- 0/15BADD0 (1 row) -- 再次查看当前已有的WAL日志文件 postgres=# select * from pg_ls_waldir(); name | size | modification --------------------------+----------+------------------------ 000000010000000000000001 | 16777216 | 2023-05-20 22:06:31+08 000000010000000000000002 | 16777216 | 2023-05-20 22:06:31+08 (2 rows)
通过查看pg_wal目录,此时将生成一个新的WAL日志文件。
[postgres@mydb pg_wal]$ tree . ├── 000000010000000000000001 ├── 000000010000000000000002 └── archive_status 1 directory, 2 files
PostgreSQL数据库使用WAL优势主要有以下两个方面:
- 首先,由于在数据库数据发生变更时会先将WAL日志缓冲区中的重做日志写入磁盘,因此即使在数据库发生宕机时,数据缓冲区中的数据还没有全部写入到永久存储中的情况下,也可以通过磁盘上的WAL日志信息来恢复数据库丢失的数据;
- 其次,在提交事务操作时仅仅是把WAL日志写入到磁盘上,并不会将数据刷新到磁盘。因此,从I/O次数来说,刷新WAL日志的次数要比刷新数据文件的次数少得多;从IO花销来说,WAL刷新是连续I/O,而数据刷新是随机I/O,因此,WAL刷新花销小得多。