RHEL 1x 发布录
2025-05-21 11:32:26 阿炯

本站赞助商链接,请多关照。 本文主要用于记录《Red Hat Enterprise Linux》第10版至19版的发行情况。

RHEL 10 正式发布

全球领先的开源解决方案提供商红帽于2025年5月下旬正式宣布推出 Red Hat Enterprise Linux 10,主要变化包括:
基于 Linux 6.12 LTS 内核
改进 Cockpit Web 控制台,
更新软件包如 PHP 8.3、Nginx 1.26、Git 2.47、MySQL 8.4 等等
与 SiFive 合作推出针对 RISC-V 架构的 RHEL 10 开发者预览版,初步支持 SiFive 的 HiFive P550 开发板

RHEL 10 还引入了 AI 助手 RHEL Lightspeed,可帮助 IT 管理员管理 RHEL 10 服务器,用户可以向 RHEL Lightspeed 询问类似 “帮助我排除 SSHD 无法启动故障” 等问题。

详情可查看
whats-new-rhel-10

red-hat-intro-rhel-10

rhel-10.0-release-notes


1x 故障排查常用手册

1、故障排查方法论
标准流程:
现象 → 定位范围 → 收集数据 → 分析 → 验证 → 修复 → 复盘

经典工具集:ss / tcpdump(网络)、top / pidstat(CPU)、iostat(IO)

2、案例1:CPU 飙高(容器导致)
现象:CPU 100%、系统响应慢、K8s Pod 卡顿
定位:top、pidstat -u1
发现:某个容器进程 CPU 占用 300%+
深入分析:
dnf install -y bpftrace
bpftrace -e 'profile:hz:99 { @[comm] = count(); }'

可能原因:应用死循环(代码问题)、或线程未释放
解决:podman stop <container>

预防
限制 CPU:podman run --cpus=1
接入监控:通过 eBPF 定位 CPU 热点进程,比传统 top 更精准

3、案例2:磁盘 IO 100%(数据库卡住)
现象:MySQL 卡顿、系统 load 很高
定位:iostat -x1

发现:
%util = 100%
iotop:发现某进程 IO 很高

可能原因:日志写入过多或磁盘性能瓶颈
解决:限制日志、临时重启服务
预防:使用 SSD / NVMe、日志分盘

4、案例3:端口通但访问超时
现象:telnet80 OK、curl 超时
定位:ss -lntp
确认服务在监听
tcpdump -i eth0 port 80
发现:请求到了、没有响应
可能原因:应用线程池耗尽、或后端服务挂了
解决:重启服务、扩容线程池
预防:接入限流、健康检查

网络没问题的话,那问题在应用层

5、案例4:SSH 无法登录
SSH 超时 / 拒绝
定位:ss -lntp | grep22
journalctl -u sshd

原因:sshd 挂了或防火墙问题、或 SELinux 拦截

解决
systemctl restart sshd
setenforce 0(临时)

预防:监控 sshd、保留控制台入口

6、案例5:DNS 解析失败(经典)
ping 域名失败
ping IP 正常

定位
cat /etc/resolv.conf
dig www.baidu.com

原因:DNS 配置错误或 DNS 服务不可用
解决:echo "nameserver DNSIP"  > /etc/resolv.conf

预防:配置多个 DNS、本地缓存 DNS

7、案例6:内存不高但系统卡死
free 内存正常但系统卡

定位:vmstat 1
关注:wa(IO等待)
原因:IO 等待导致假死
解决:优化磁盘、限制 IO

CPU 不高不代表系统健康,关键得看 IO wait

8、案例7:服务频繁自动重启(systemd问题)
服务反复重启
定位:systemctl status nginx、journalctl -u nginx
原因:配置错误、systemd restart策略
解决:Restart=on-failure

9、RHEL10 高级排障
1.eBPF 排障(核心能力)
bpftrace -e 'tracepoint:syscalls:sys_enter_execve { printf("%s\n", comm); }'
用途:性能分析、安全分析

2.容器排障(重点)
podman logs <container>
podman inspect <container>

3.网络深度排查
ss -s、netstat -s

10、小结
在 RHEL10 环境下建立了一套标准化故障排查体系:
基于 CPU / IO / 网络三维定位问题
引入 eBPF 提升内核级观测能力
针对常见故障形成自动化修复策略
最终将故障处理从“人工经验”升级为“体系化SRE能力”