RHEL 1x 发布录
2025-05-21 11:32:26 阿炯

本站赞助商链接,请多关照。 本文主要用于记录《Red Hat Enterprise Linux》第10版至19版的发行情况。

RHEL 10 正式发布

全球领先的开源解决方案提供商红帽于2025年5月下旬正式宣布推出 Red Hat Enterprise Linux 10,主要变化包括:
基于 Linux 6.12 LTS 内核
改进 Cockpit Web 控制台,
更新软件包如 PHP 8.3、Nginx 1.26、Git 2.47、MySQL 8.4 等等
与 SiFive 合作推出针对 RISC-V 架构的 RHEL 10 开发者预览版,初步支持 SiFive 的 HiFive P550 开发板

RHEL 10 还引入了 AI 助手 RHEL Lightspeed,可帮助 IT 管理员管理 RHEL 10 服务器,用户可以向 RHEL Lightspeed 询问类似 “帮助我排除 SSHD 无法启动故障” 等问题。

详情可查看
whats-new-rhel-10

red-hat-intro-rhel-10

rhel-10.0-release-notes


1x 故障排查常用手册

1、故障排查方法论
标准流程:
现象 → 定位范围 → 收集数据 → 分析 → 验证 → 修复 → 复盘

经典工具集:ss / tcpdump(网络)、top / pidstat(CPU)、iostat(IO)

2、案例1:CPU 飙高(容器导致)
现象:CPU 100%、系统响应慢、K8s Pod 卡顿
定位:top、pidstat -u1
发现:某个容器进程 CPU 占用 300%+
深入分析:
dnf install -y bpftrace
bpftrace -e 'profile:hz:99 { @[comm] = count(); }'

可能原因:应用死循环(代码问题)、或线程未释放
解决:podman stop <container>

预防
限制 CPU:podman run --cpus=1
接入监控:通过 eBPF 定位 CPU 热点进程,比传统 top 更精准

3、案例2:磁盘 IO 100%(数据库卡住)
现象:MySQL 卡顿、系统 load 很高
定位:iostat -x1

发现:
%util = 100%
iotop:发现某进程 IO 很高

可能原因:日志写入过多或磁盘性能瓶颈
解决:限制日志、临时重启服务
预防:使用 SSD / NVMe、日志分盘

4、案例3:端口通但访问超时
现象:telnet80 OK、curl 超时
定位:ss -lntp
确认服务在监听
tcpdump -i eth0 port 80
发现:请求到了、没有响应
可能原因:应用线程池耗尽、或后端服务挂了
解决:重启服务、扩容线程池
预防:接入限流、健康检查

网络没问题的话,那问题在应用层

5、案例4:SSH 无法登录
SSH 超时 / 拒绝
定位:ss -lntp | grep22
journalctl -u sshd

原因:sshd 挂了或防火墙问题、或 SELinux 拦截

解决
systemctl restart sshd
setenforce 0(临时)

预防:监控 sshd、保留控制台入口

6、案例5:DNS 解析失败(经典)
ping 域名失败
ping IP 正常

定位
cat /etc/resolv.conf
dig www.baidu.com

原因:DNS 配置错误或 DNS 服务不可用
解决:echo "nameserver DNSIP"  > /etc/resolv.conf

预防:配置多个 DNS、本地缓存 DNS

7、案例6:内存不高但系统卡死
free 内存正常但系统卡

定位:vmstat 1
关注:wa(IO等待)
原因:IO 等待导致假死
解决:优化磁盘、限制 IO

CPU 不高不代表系统健康,关键得看 IO wait

8、案例7:服务频繁自动重启(systemd问题)
服务反复重启
定位:systemctl status nginx、journalctl -u nginx
原因:配置错误、systemd restart策略
解决:Restart=on-failure

9、RHEL10 高级排障
1.eBPF 排障(核心能力)
bpftrace -e 'tracepoint:syscalls:sys_enter_execve { printf("%s\n", comm); }'
用途:性能分析、安全分析

2.容器排障(重点)
podman logs <container>
podman inspect <container>

3.网络深度排查
ss -s、netstat -s

10、小结
在 RHEL10 环境下建立了一套标准化故障排查体系:
基于 CPU / IO / 网络三维定位问题
引入 eBPF 提升内核级观测能力
针对常见故障形成自动化修复策略
最终将故障处理从“人工经验”升级为“体系化SRE能力”

RHEL v10.2 和 v9.8 现已于2026年5月中旬发布,一些更新亮点包括:

增强的命令行 AI 辅助
面向高级用户的goose命令:面向经常使用终端的用户推出了 goose,一款高级的可选命令行 AI 助手(可在扩展库中找到)。虽然 RHEL 命令行助手仍然完全受支持,但 goose 提供了更强大的体验,它连接到同一个可信的 AI 后端,但提供流式响应,并可与 RHEL 的新模型上下文协议 (MCP) 服务器集成(开发者预览版)。这意味着用户可以更快、更灵敏地访问所需的信息和命令,从而减少查找信息的时间。

改进的视觉输出:RHEL 命令行助手也增强了彩色输出支持。此功能可将输出中的命令、脚本和说明进行视觉区分,使信息更易于阅读、理解和操作,从而提高管理员的工作效率。

对基础架构进行了更新,包括:
Go Toolset 1.26:新增 Green Tea 垃圾回收器,性能和安全性运行时增强,支持 HPKE。
影响:改善尾延迟,提高性能,具备现代化的安全功能。

LLVM Toolset 21:新的 ThinLTO 后端 (DTLTO),针对目标后端的各种改进。
影响:增强编译器优化,从而生成速度更快、效率更高的应用程序二进制文件。

Rust Toolset 1.92:在 Cargo 中原生发布工作区,改进调试,增强系统编程。
影响:简化构建流程,提高系统级开发可靠性。

Python 3.14:实时语法高亮、更智能的自动补全、扩展的类型系统、面向未来的性能。
影响:提高开发人员的工作效率,并为下一代 Python 工作负载做好准备。

Ruby 4.0:新增 ZJIT 编译器、Ruby Box 定义分离、Ractor 改进。
影响:显著提升 Ruby 应用程序的性能并增强并发性。

Git 2.51:Stash 导出和导入、ORT 合并引擎以更快地解决冲突、新的 Git backfill、稳定的 Git witch 和 restore 功能。
影响:更高效的代码管理,更快更可靠的源代码控制操作。

PHP 8.4:Object property hooks、非对称属性可见性、lazy 对象。
影响:采用现代语言特性,实现更简洁、更强大的 PHP 开发。

OpenJDK 25:Generational Shenandoah、Late Barrier Expansion for G1、Ahead-of-Time profiling。
影响:显著提升 Java 应用程序的性能和稳定性。

PostgreSQL 18:异步 I/O 支持、更快的升级、虚拟生成列、UUIDv7。
影响:显著提升数据库性能和高级数据管理功能。

MariaDB 11.8:新增 VECTOR 数据类型和向量索引,默认字符集为 utf8mb4。
影响:可满足现代数据工作负载的需求,包括 AI/ML 向量处理和更广泛的字符支持。

更多详情可查看官方公告

迈出正式支持关键一步:10.2 RISC-V 第二个开发者预览版

Red Hat 于2026年6月发布了 RHEL 10.2 for RISC-V 的开发者预览版(Developer Preview)。这是继2025年 RHEL 10.0 首次提供 RISC-V 开发者预览之后的第二次公开快照,距离初版发布已经过去了 13 个月。对于关注 RISC-V 生态发展的用户来说,这次更新不仅是技术层面的增量改进,更是一个明确的信号:Red Hat 正在稳步推进 RISC-V 从 "开发者玩具" 向企业级支持的过渡。

RISC-V 作为一种开源指令集架构(ISA),近年来在嵌入式、物联网和边缘计算领域获得了可观的牵引力。但它在服务器和数据中心领域的渗透一直面临一个 "先有鸡还是先有蛋" 的问题:没有企业级 Linux 发行版的正式支持,硬件厂商和云服务商不敢轻易投入;而没有足够的硬件和用户基础,发行版厂商也不愿意分配工程资源。Red Hat 作为企业 Linux 市场的标杆,其对 RISC-V 的投入程度,对整个生态具有风向标意义。

RHEL 10.2 开发者预览版最显著的变化是包含了更多上游代码,专门针对 SiFive HiFive Premier P550 开发板进行优化。HiFive Premier P550 是目前 RISC-V 生态中最接近 "现代桌面级" 体验的开发平台之一,搭载 SiFive Performance P550 核心,支持 RV64GC 指令集。Red Hat 将其作为主力测试硬件,意味着工程团队正在以真实硬件(而非仅依赖 QEMU 模拟)为基准进行适配和验证工作。除了 P550 之外,社区成员也报告在 StarFive JH7110 和 UltraRISC DP1000 等硬件上成功运行了 RHEL 10.2,同时在 QEMU 模拟环境下的兼容性也表现良好。这显示 RHEL 的 RISC-V 移植并非为单一硬件平台定制的 "演示版本",而是向着通用化、多平台兼容的方向推进。

从版本定位看,Red Hat 选择 RHEL 10.2 作为第二个预览版节点本身值得解读。RHEL 10.0 在 2025 年发布时,RISC-V 预览版更多是 "能力展示",表明 RHEL 可以在该架构上启动并运行基本服务。而 10.2 版本经过了两个小版本的迭代,在上游代码合并、驱动支持、性能调优方面都有了实质进展。Red Hat 官方声明称 "将继续关注和支持 RISC-V 生态系统的成长",措辞谨慎,但投入的持续性本身就说明问题 —— 如果没有明确的商业路线图,不会有企业愿意为一个 "永远的实验性端口" 持续投入工程资源。

Phoronix 创始人 Michael Larabel 在报道中给出了一个合理的预测:如果一切顺利,RISC-V 的官方正式支持可能成为 Red Hat Enterprise Linux 11.0 的重大更新亮点之一。这个判断基于 RHEL 的版本发布节奏:RHEL 10 系列的开发预览版主要承担验证和适配工作,而大版本号变更(如从 10 到 11)通常是引入新架构支持的自然时机 —— 正如过去 RHEL 对 ARM(AArch64)的正式支持也是在一个大版本中落地的。

回顾 ARM 服务器生态的崛起历程,可以看到一条清晰的路径。早期 ARM 服务器同样经历了 "开发板→开发者预览→社区试用→正式支持" 的过程。ARM 生态成熟后,不仅进入了 AWS Graviton 等云原生场景,还催生了 Ampere 等一批专注于服务器级 ARM 芯片的厂商。RISC-V 的演进轨迹与 ARM 早期高度相似,但得益于开放指令集和近年来开源硬件的协同发展,这个进程可能被加速。

值得注意的是,RHEL 对 RISC-V 的投入发生在一个关键转折期。Phoronix 近期的测试显示,RISC-V CPU 性能在五年内提升了 8 倍 —— 从 SiFive HiFive Unmatched 到 SpacemiT K3 的跨代比较表明,RISC-V 的性能提升速度远超同期 x86 或 ARM 架构。当性能差距缩小到 "可用" 区间时,企业级操作系统的支持就从一个可选加分项变成了生态出线的必要条件。

Red Hat 的母公司 IBM 在 RISC-V 领域同样有布局。IBM 在 2025 年成为 RISC-V International 的高级会员,并在 Power 架构与 RISC-V 的融合方面有技术探索。虽然 RHEL 的 RISC-V 移植工程相对独立于 IBM 的硬件战略,但母公司的生态站位为 Red Hat 的持续投入提供了组织层面的背书。

对于开发者和企业用户来说,RHEL 10.2 for RISC-V 仍然定位为"开发者预览",不适合生产环境部署。但这恰恰是生态建设的关键阶段:早期采用者的反馈能帮助发现硬件兼容性问题、驱动缺失和应用层适配瓶颈。Red Hat 需要一个足够活跃的开发者社区来帮助验证 RISC-V 上运行企业级工作负载的可行性,而社区则需要一个可信的操作系统基础来启动他们的项目 ——RHEL 10.2 开发者预览版正好提供了这个双向通道。

从更宏观的角度看,RISC-V 在企业 Linux 领域的进展,最终受益的是整个开源基础设施生态。一个不受单一商业实体控制的指令集架构,搭配一个经过严格测试和认证的企业级操作系统,将在云原生、边缘计算和 AI 推理等场景中提供一种全新的算力组织方式。Red Hat 的这一步虽然谨慎而渐进,但方向明确:让 RISC-V 从 "可以运行 Linux" 走向 "值得在上面运行企业应用"。