PostgreSQL 17 正式发布
2024-09-27 15:41:25 阿炯

PostgreSQL v17 在经历了数个Beta版本后,现已于2024年9月下旬正式发布,其发行公告称 “这是世界上最先进的开源数据库的最新版本。”

PostgreSQL 是全球最先进的开源数据库,拥有由成千上万的用户、贡献者、公司和组织组成的全球社区。有着超过 35 年的工程开发历史,始于加州大学伯克利分校,其以无与伦比的开发速度持续发展。PostgreSQL 成熟的功能集不仅比肩能顶级的专有商业数据库系统,在高级数据库功能、可扩展性、安全性和稳定性方面甚至超越了它们。2024年9月下旬宣布了 PostgreSQL v17的正式发布:这是世界上最先进的开源数据库的最新版本。

“关系型”定语已经去掉了,就是世界上最先进的开源数据库。

本次发布中 PG 去掉了原本 Slogan “世界上最先进的开源关系型数据库” 中的 “关系型” 三个字,直接变成了 “世界上最先进的开源数据库”。并且在最后 “关于 PostgreSQL” 的部分,已经几乎是明示:PG 的功能集,高级特性,可扩展性,安全性,稳定性已经匹配甚至超过了顶级商业数据库(Oracle/SQL Server) 。所以“开源” 这个定语也可以去掉,变成 “世界上最先进的数据库”。

PostgreSQL v17 建立在数十年的开源开发模式基础上,在不断提升性能与可伸缩性的同时,也在不断适应数据访问与存储的新兴模式。本次 PostgreSQL 发布带来了显著的整体性能提升,例如,VACUUM 内存管理的彻底改进、存储访问优化、高并发工作负载改进、批量加载与导出加速、以及索引查询执行的改进等。v17具备能够同时惠及新型工作负载和关键核心系统的特性,例如:新增的 SQL/JSON 的 JSON_TABLE 命令改善了开发者体验;而对逻辑复制的改进,则简化了高可用架构与大版本升级的管理负担。

PostgreSQL 核心团队成员 Jonathan Katz 表示:“PostgreSQL 17 展现了全球开源社区如何协同构建,改善功能,帮助位于数据库旅途中不同阶段的用户”。“无论是针对大规模数据库运维的改进,还是基于卓越开发者体验的新特性,PostgreSQL 17 都将为您带来更好的数据管理体验。”

PostgreSQL 是一款以可靠性、稳健性和可扩展性著称的创新型数据管理系统,受益于全球开发者社区超过 25 年的开源开发,已成为各类组织的首选开源关系型数据库。

v17 在适应新兴数据访问和存储模式的同时,提高了性能和可扩展性显著提高了整体性能,包括彻底改进的 vacuum 内存管理实现、存储访问优化和高并发工作负载改进、批量加载和导出加速以及索引查询执行改进。v17 具有使全新工作负载和关键系统都受益的功能,例如,增加了使用 SQL/JSONJSON_TABLE 命令的开发人员体验,增强了逻辑复制从而简化了高可用性工作负载和主要版本升级的管理。

PostgreSQL 核心团队成员 Jonathan Katz 表示:“PostgreSQL v17 凸显了推动 PostgreSQL 发展的全球开源社区如何构建增强功能,帮助用户完成数据库之旅的各个阶段。无论是大规模操作数据库的改进,还是建立在令人愉悦的开发人员体验基础上的新功能,v17 都将增强数据管理体验。”

系统性能的全面提升

PostgreSQL 的 vacuum 进程对于系统健康运行至关重要,且需要服务器实例资源。v17 引入了一种新的 vacuum 内部内存结构,将内存消耗降低了多达 20 倍。这不仅提高了 vacuum 的速度,还减少了共享资源的占用,为您的工作负载释放了更多资源。

v17 继续提升其 I/O 层的性能。由于对预写日志(WAL)处理的改进,高并发工作负载的 写入吞吐量可能提升至 2 倍。此外,新的流式 I/O 接口加快了顺序扫描(读取表中所有数据)以及 ANALYZE 更新查询计划统计信息的速度。v17 也在查询执行方面提升了性能。对于使用 B-tree 索引(PostgreSQL 默认的索引方法)的 IN 子句查询,性能有所提高。此外,BRIN 索引现在支持并行构建。PostgreSQL 17 在查询规划方面进行了多项改进,包括对 NOT NULL 约束的优化,以及对公用表表达式(WITH 查询)处理的改进。本次发布还为加速计算添加了更多 SIMD(单指令多数据)支持,包括在 bit_count 函数中使用 AVX-512。

进一步丰富的开发者体验

PostgreSQL 是首个添加 JSON 支持的关系型数据库(2012 年),v17 进一步完善了其对 SQL/JSON 标准的实现。JSON_TABLE 现已在 v17 中可用,允许开发者将 JSON 数据转换为标准的 PostgreSQL 表。v17 现在支持 SQL/JSON 的构造函数(JSON、JSON_SCALAR、JSON_SERIALIZE)和查询函数(JSON_EXISTS、JSON_QUERY、JSON_VALUE),为开发者提供了与 JSON 数据交互的更多方式。本次发布添加了更多 jsonpath 表达式,重点是将 JSON 数据转换为原生的 PostgreSQL 数据类型,包括数值、布尔值、字符串和日期/时间类型。

v17 为 MERGE 添加了更多特性,用于条件更新,包括 RETURNING 子句和更新视图的能力。此外 v17 为批量加载和数据导出提供了新功能,包括在使用 COPY 命令导出大型行时性能提升多达 2 倍。当源和目标编码匹配时,COPY 性能也有所提升,并包含一个新选项 ON_ERROR,允许在插入错误时继续导入。此次发布还扩展了对分区数据和分布在远程 PostgreSQL 实例上的数据的管理功能。v17 支持在分区表上使用标识列和排除约束。用于在远程 PostgreSQL 实例上执行查询的 PostgreSQL 外部数据包装器(postgres_fdw)现在可以将 EXISTS 和 IN 子查询下推到远程服务器,以实现更高效的处理。

v17 还包含一个内置的、平台无关的、不可变的排序规则提供者,确保排序规则的不可变性,并提供了类似于 C 排序规则的排序语义,但使用 UTF-8 编码而非 SQL_ASCII。使用这个新的排序规则提供者,可以保证您的文本查询无论在何处运行 PostgreSQL,都能返回相同的排序结果。

为高可用性和主要版本升级提供的逻辑复制增强

逻辑复制用于在许多用例中实时传输数据。然而,在此版本之前,想要执行主要版本升级的用户必须删除逻辑复制槽,这需要在升级后将数据重新同步到订阅者。从升级到 v17 开始,用户无需删除逻辑复制槽,简化了在使用逻辑复制时的升级过程。

v17 现在包含了逻辑复制的故障转移控制,使其在高可用性环境中部署时更加可靠。此外 v17 引入了命令行工具 pg_createsubscriber,用于将物理副本转换为新的逻辑副本。

更多安全和运营管理选项

PostgreSQL v17 进一步扩展了用户管理数据库系统生命周期的方式。PostgreSQL 有一个新的 TLS 选项 sslnegotiation,允许用户在使用 ALPN(在 ALPN 目录中注册为 postgresql)时执行直接 TLS 握手。v17 还添加了预定义角色 pg_maintain,赋予用户执行维护操作的权限。它所附带的备份工具 pg_basebackup 现在支持增量备份,并添加了实用程序 pg_combinebackup 来重建完整备份。此外 pg_dump 包含一个名为 --filter 的新选项,允许您在生成转储文件时选择要包含的对象。

v17 还增强了监控和分析功能。EXPLAIN 现在显示本地 I/O 块读取和写入所花费的时间,并包含两个新选项:SERIALIZE 和 MEMORY,可用于查看用于网络传输的数据转换时间以及使用的内存量。v17 现在报告索引清理的进度,并添加了系统视图 pg_wait_events,结合 pg_stat_activity,可以更深入地了解活动会话的等待原因。

其他功能

PostgreSQL v17 中还添加了许多其他新功能和改进,可能对您的用例有所帮助。请参阅发行说明以获取新功能和更改的完整列表。

德哥在他的博客中已经解读了许多关于 v17 的新功能特性,是进一步了解本次更新功能特性的好资源:《PostgreSQL 17 正式发布, 要不要升?

看看PostgreSQL v17值得期待的新增特性:
1、pg_basebackup支持块级别增量备份与恢复(通过pg_combinebackup重构): 对于特别大的库非常棒, 数据文件的备份终于不需要每次都全拷贝了, 可以只备份上次备份以来修改过的数据块.

2、支持逻辑复制failover、switchover: 16支持了standby开启逻辑复制功能, 17的增强是在基于流复制的HA解决方案中支持了逻辑复制的failover(而且是0丢失的).同时17开始pg_upgrade大版本升级可以保留逻辑复制槽了.

3、支持COPY错误处理: 以前COPY遇到异常的行会报错退出, 现在支持了skip error row. 不过还有记录error row, 支持也是早晚的事.

4、JSON类型处理能力增强: 主要增强了jsonpath的功能, 总之使用PG处理JSON是很顺手的.

5、vacuum性能改进: 引入TidStore数据结构, 打破存储dead tupleids的上限(只要内存足够, 索引再也不需要被多次扫描), 相比以往能节省20倍内存消耗, 并且大幅度提升vacuum了效率.

6、index 性能优化: 支持并行创建brin索引; gist/sp-gist索引支持增量排序场景; btree倒序增强等.

7、高并发锁竞争优化: 通过一系列wal锁优化, 提升高并发写入性能, 可提升2倍性能.

8、性能优化: 批量导入性能提升; merge append提升union性能; 通过增量排序提升group by性能; 减少分区表partitionwise join内存消耗; postgres_fdw 支持semi-join pushdown等; simd指令集支持了更多的用户函数支持, 使得大批量计算的性能更好.

9、新增GUC参数: 新增了一系列的GUC参数提升数据库管理灵活性.

10、SQL语法、函数功能增强: 分区表分裂与合并、merge语法、生成列、exclude约束等功能增强.

11、管理手段增强: 支持login 事件、新增维护角色、读写分离一致性函数支持、事务超时等.

12、内部统计信息、系统视图增强: 新增等待事件视图、增强检查点统计信息、增强并行操作统计信息、增强范围类型的统计信息维度、增强standby统计信息、增强io统计信息.

13、table access method 接口增强: 新增了自定义Option的接口, undo回滚段am可能快来了. 被Tom lane老师打回了, 开不开心? 但是在tom lane 老师crunchydata的产品中确在大量使用bridgh的产品(依赖am option的接口等).

14、扩展接口能力增强: 新增钩子、支持自定义等待事件、新增自定义注入点、支持DSM注册等.

15、wire protocol、libpq协议增强: 继续加强吧, 希望国产数据库厂商开发兼容mysql、sqlserver等协议更容易.

看完是不是有点失落? 为什么xid64、undo回滚段、TDE等万众期待的功能还是没有等来。

但v17依旧是值得期待的版本,毕竟块级增量备份和恢复、逻辑复制failover、垃圾回收性能改进(一定程度缓解了xid wrapped问题)、高并发性能提升都是不错的;另外AM接口不断增强,估计undo回滚段管理未来的版本也快来了。


对psql中 \watch的优化改进

在执行的SQL后面添加\watch命令,可以指定该SQL多久执行一次查询,最多N次,如果返回的行数少于MIN则停止。在psql中使用\watch运行重复查询时,当查询不再返回预期的行数时,可以停止监控进程,例如监视pg_stat_activity中某个事件的存在并在该事件不再存在时停止。在v17版本中,为\watch添加min_rows=MIN参数,该参数可以设置为非负整数,并且当返回的行数少于MIN时,watch查询将停止执行。在这里min_rows可以简写为n,后面也将验证。

psql中\watch参数说明

\watch [[i=]SEC] [c=N] [m=MIN]
    execute query every SEC seconds, up to N times,
    stop if less than MIN rows are returned
--每SEC执行一次查询,最多N次,如果返回的行数少于MIN则停止

\watch每隔多久执行一次

\watch [[i=]SEC]用于指定对应的sql每N秒重新运行一次查询,如果参数I未指定,则默认值为2。在这里i参数可以省略不写,即\watch N或\watch。
# SELECT COUNT(*) FROM pg_stat_activity \watch 1

在指定\watch 1命令后,执行SELECT COUNT(*) FROM pg_stat_activity语句,然后休眠1s后再重复执行该SQL。
\watch 最多执行几次

当我们指定c=2时,在执行2次后就停止执行了。

# SELECT COUNT(*) FROM pg_stat_activity \watch 1 c=2

\watch 指定返回最小行数后停止–新功能

在监控数据库时运行情况时,比如监控正在运行的SQL或锁时,这个是相当有用。

先在本地打开两个客户端分别psql连接数据库,然后在其中一个客户端上,执行下面的查询语句
# SELECT pid FROM pg_stat_activity WHERE backend_type = 'client backend' \watch m=2

在第二个客户端窗口中执行\q或者关闭客户端也可以。当关闭第二个窗口时,可以看到第一个客户端页面,当查询返回的行数为1,小于了指定的条件2,因此就终止了该查询。

验证m为min_rows的简写

在官方的邮件中看到的介绍是为\watch添加min_rows=MIN参数,但是psql的帮助界面显示参数语法为m,出于严谨的态度,同时也顺便也验证看一下,m是否为min_rows的简写。
# SELECT pid FROM pg_stat_activity WHERE backend_type = 'client backend' \watch min_rows=2

当把参数由m=2替换为min_rows=2,可以正常执行且执行的效果是一样的,也就说明了m=2是min_rows=的简写。


更多其他新功能和改进可参阅发行说明