DragonFly BSD
2010-01-30 11:01:32 阿炯

DragonFly 是一个以与 FreeBSD 采用的实现方式不同的方式来实现并发、SMP、集群以及其他操作系统特性的 BSD 分支。DragonFly 项目的创始人和目前的 leader,Matthew Dillon 曾经是 FreeBSD SMPng 项目的重要开发人员,在 FreeBSD 3.x 时代开始,他对 FreeBSD 虚拟内存子系统、VFS子系统等多个重要部分进行了重写和增强,这些工作给 FreeBSD 4.x 系列的可靠性和性能打下了坚实的基础。FreeBSD 项目于 2000 年 6 月在 Sunnyvale 的 Yahoo 公司总部举行了SMP峰会,并正式启动了SMPng计划,即利用 BSDi 捐赠的 BSD/OS 源代码和相关的设计思想来改善FreeBSD的SMP能力。

Matthew Dillon 对 BSD/OS 中的许多实现并不满意,并在SMPng开发过程中展现了卓越的天赋和才华。由于BSD/OS与FreeBSD之间的巨大差异和时间限制,Matthew Dillon在开始移植细锁之后不久即决定重新实现上锁原语,而完成这些工作距离 SMPng 峰会结束仅经过几天时间。尽管如此,在随后的开发活动中,与其他开发人员不断爆发的冲突,导致他被多次停权警告,并最终撤销了commit权限。

2003年7月,Matt宣布在 FreeBSD 4.8-STABLE 的基础上的fork,并正式定名为 DragonFlyBSD (最初名字是TortoiseBSD,现在多称为 DragonFly)。与 FreeBSD 5.x 系列采用的细锁模型不同, DragonFly 采用消息模型作为内核的主要同步机制,并希望由此获得更好的可伸缩性。

DragonFly 同时采用了许多其他兄弟BSD系统的代码,其malloc()函数的安全特性来自于OpenBSD,WiFi框架来自于FreeBSD 6,USB实现来源于NetBSD。许多 DragonFly 的特性也被移植到 FreeBSD 中,目前 DragonFly 最值得关注的是 Matthew Dillon 新设计的 HAMMERFS 文件系统。

目标和开发计划
DFBSD的最终目标是在内核中提供对通用集群系统原生的支持,为了达到此目标,DFBSD项目将开发分解为两个阶段:
第一个阶段从2003年至2007年初,主要关注对主要内核子系统的重写。这几乎涉及到所有的子系统,尤其是内核核心和文件系统的API。这也是第二阶段的准备工作。

第二个阶段主要是为文件系统命名空间、文件空间和VM空间创建一个精巧的cache管理框架,这将为横跨多台机器运行的重负荷交互性程序从各个方面完全保证cache的一致性,同时也解决了对资源的细分问题(包括通过可控的VM上下文来细分cpu资源),这样可为分布在internet的不安全的第三方集群实现安全的分配方式(即使这些集群自身都不清楚自己的安全性,对那些愿意捐赠系统(计算)资源的人来说最基本和最重要的事情是不要因为捐赠资源而遭到攻击)。

技术特色
Kernel design

同大多数现代内核一样,DragonFly的内核是混合型的,包含了微内核与统一内核的特色,并试图集成两种技术的优势。例如微内核的消息传递机制可以使OS能从被保护内存中节余更多空间;而统一内核在处理某些关键任务的速度方面更具优势。(DFBSD的)消息子系统看起来相似于某些微内核系统,例如Mach,虽然Mach 设计的更加简单。DFBSD的消息子系统可以工作在同步或异步模式,并试图在给定条件下达到系统的最佳性能。

为达到项目的剩余目标,同时提供设备 I/O和VFS的消息机制。新架构将允许内核的许多部分可以被转移到用户空间,其优点在于以更小的独立的程序取代了混杂在一起的大量代码,这使内核更小更容易调试;而那部分被允许在用户空间执行的内核代码带来的额外的好处是系统将更加稳定,即使用户空间的驱动崩溃了,内核也不会崩溃。
虽然同样被封装成消息,但实际上系统调用被分为用户空间版本和内核版本。把多种标准调用从内核转移到用户空间的兼容层有助于降低内核的的大小和复杂度,这就有助于维护DFBSD版本前向后向的兼容性。Linux和其他类UNIX系统的兼容性代码被转移出来就与此类似。DFBSD可在jails中创建原生用户空间兼容层的多个实例与UML(用户模式linux)就很相似。不同于UML(本质上宿主内核相当于一个不同的硬件平台,而UML是对其的一个linux移植)的是DFBSD的虚拟化对计算机的真实硬件不需要特殊驱动就可以直接通讯。

CPU localization
DFBSD中线程被设计成被CPU锁定,并且每个处理器有着自己的LWKT调度器。线程只能通过在cpu之间传递一个IPI(Interprocessor Interrupt)消息来转移,而不能依据优先级从一个处理器切换到另一个处理器。进程间的线程调度也是通过发送异步IPI消息来完成。(这样实现的) 一个优点是通过线程子系统的明确的隔离使得SMP系统的处理器的板载cache不会包含重复数据,并通过给予系统里的每个处理器使用自己的cache来缓存不同的事物以达到更高的性能。

在多个内核线程间分割工作给各个LWKT子系统(举个网络代码的例子;每个处理器每个协议一个线程),通过在移除在多个内核任务中共享某些资源的需求来减轻冲突。但是这个DFBSD设计的与众不同的关键特性“CPU局部化算法的线程分割实现”是有争议的。

Protecting shared resources
为了能在多处理器的机器上安全的运行,对共享资源(文件、数据结构等)必须串行化,这样线程或者进程就不会在同一时刻修改同一资源。原子化操作、自旋锁、关键代码段(Critical sections 是一小块用来处理一份被共享资源的代码,该段代码必须独占的对某些共享资源的访问权。这可以让多行代码以原子方式执行。如果一个线程进入了 critical section,另外一个线程绝对不能进入该critical section)、互斥标记,串行令牌和消息队列与所有可能的方式都可被用来防止访问冲突。linux和FreeBSD 5采用细化锁互斥模型来实现多处理器系统的高性能,然而DFBSD却不是这样,为了防止多个线程同时访问或者修改共享资源,DFBSD使用了关键代码段和串行令牌技术。虽然直到最近,DFBSD仍在使用SPLs,但是将被关键代码段取代。

很多系统核心包含LWKT子系统,其他事物中的IPI消息子系统和新的核心内存分配器是没有加锁的,也就是说他们工作时没有使用互斥标记,并且在单CPU上运行。关键代码段用于保护本地中断,也在单CPU上运行,保证了一个当前运行的线程不会被先占有。

串行令牌被用来阻止对其他CPU的同时访问并控制多个线程的同时并发,确保在一个给定时间只有一个线程运行。不同于互斥方式,处于阻塞或者休眠状态的线程并不能防止别的线程对共享资源的访问。使用串行令牌可以阻止使用互斥方式时导致的很多死锁和优先级倒置的问题,这样极大的简化了一个需要在多个线程共享一个资源的多步程序的设计和实现。串行令牌的代码看起来于linux现在使用的”Read-copy-update”很相似,但不同于linux当前RCU 的实现,DFBSD实现了竞争只影响到与同一个令牌相关的处理器,而不是计算机里所有的处理器。

Additional features
在开发初期,DFBSD就开发了一个slab分配器取代了FreeBSD 4的内核内存分配器。新的分配器不像它取代的那些代码,在内存分配时既不需要互斥,也不需要时阻塞操作。而且它是mpsafe的。

DFBSD 使用SFBUF(Super-Fast Buffers)和MSFUBF(Multi-SFBUFs)。SFBUF是用来管理快速单页内存映射并在适当的时候对页面缓存。它们被用来回收一个单 VM页相对数据的引用。(这个设计)简单而又强大,在此之上可以发展很多功能,比如说在sendfile系统调用里实现“zero-copy”。

内核里很多地方使用了SFBUF,比如在Vnode Object Pager和PIPE子系统(间接的如XIO)里用来支持高带宽传输。一个SFBUF只能对应一个单VM页;而MSFBUFs被用来管理多页的快速内存映射。

SFBUF 这个概念最初是FreeBSD项目中的David Greenman在实现sendfile系统调用时设计的,后来的完善依赖于Dr. Alan L. Cox和Matthew Dillon。MSFBUFs则是由Hiten Pandya和Matthew Dillon设计的。

第三方软件管理
acxcontrol - Texas Instruments ACX100/TNETW1130(ACX111) 网卡工具
battd - 电池状态监控守护进程
checkpt - 对进程还原点的恢复支持 (在一个兼容系统里串行进程状态可以被恢复)
dntpd - NTP客户端守护进程
ECC detection - 在ECC系统里检测内存错误
jscan - 扫描日志文件的程序
mount_udf - 挂接UDF文件系统
mountctl - 控制被挂接的文件系统的日志或其他特性
pctrack - 通过倾倒程序计数器跟踪内核记录的数据
rconfig - 远程配置客户端/服务器
rcrun (and family) - 管理启动脚本 (rcenable/rcdisable)
resident - 生成一个动态二进制文件的常驻内存副本
varsym - 获取和设置变量的符号连接
vkernel - 虚拟内核架构允许内核在用户空间运行
wmake – 在buildworld环境中构建DFBSD源代码


Features
Please keep in mind that major modifications have been made to nearly the entire DragonFly kernel relative to the original FreeBSD-4.x fork. Significant changes have been made to every kernel subsystem, as a consequence this list is constrained to the largest, most user-visible changes unique to DragonFly.

* The scheduler abstraction has been split up into two layers. The LWKT (Light Weight Kernel Thread) scheduler is used by the kernel to schedule all executable entities. The User Thread Scheduler is a separate scheduler which selects one user thread at a time for each cpu and schedules it using the LWKT scheduler. Both scheduler abstractions are per-cpu but the user thread scheduler selects from a common list of runnable processes.


* The User Thread Scheduler further abstracts out user threads. A user process contains one or more LWP (Light Weight Process) entities. Each entity represents a user thread under that process. The old rfork() mechanic still exists but is no longer used. The threading library uses LWP-specific calls.


* The kernel memory allocator has two abstracted pieces. The basic kernel malloc is called kmalloc() and is based on an enhanced per-cpu slab allocator. This allocator is essentially lockless. There is also an object-oriented memory allocator in the kernel called objcache which is designed for high volume object allocations and deallocations and is also essentially lockless.


* DEVFS is the DragonFly device filesystem. It works similarly to device filesystems found on other modern unix-like operating systems. The biggest single feature is DEVFS's integration with block device serial numbers which allows a DragonFly system to reference disk drives by serial number instead of by their base device name. Thus drives can be trivially migrated between physical ports and driver changes (base device name changes) become transparent to the system.


* VKERNEL - DragonFly implements a virtual kernel feature for running DragonFly kernels in userland inside DragonFly kernels. This works similarly to Usermode Linux and allows DragonFly kernels to be debugged as a userland process. The primary use is to make kernel development easier.


* NFS V3 RPC Asynchronization - DragonFly sports a revamped NFSv3 implementation which gets rid of the nfsiod threads and implements a fully asynchronous RPC mechanic using only two kernel threads. The new abstraction fixes numerous stalls in the I/O path related to misordered read-ahead requests.


* Disk I/O scheduler framework (dsched) - DragonFly implements a disk scheduler framework controlled by a set of sysctls and a fair-queue disk scheduler module. The ioprio utility may then be used to control I/O priorities on a process-by-process basis.


HAMMER - DragonFly Filesystem

HAMMER is the DragonFly filesystem, replacing UFS. HAMMER supports up to an Exabyte of storage, implements a fast UNDO/REDO FIFO for fsync(), recovers instantly on boot after a crash (no fsck), and implements a very sophisticated fine-grained historical access and snapshot mechanic. HAMMER also sports an extremely robust streaming, queueless master->multiple-slave mirroring capability which is also able to mirror snapshots and other historical data.

HAMMER is designed to accommodate today's large drives.

NULLFS - NULL Filesystem Layer

A null or loop-back filesystem is common to a number of operating systems. The DragonFly null filesystem is quite a different animal. It supports arbitrary mount points that do not loop, a problem on other operating systems, making it extremely flexible in its application. It is also extremely fast and reliable, something that few other operating systems can claim of their null filesystem layers.

TMPFS - Temporary FileSystem VFS

Originally a NetBSD port the guts have been radically adjusted and carefully tuned to provide a low-contention read path and to directly tie the backing store to the VM/paging system in a way that treats it almost like normal memory. Only memory pressure will force tmpfs data pages into swap.

TMPFS replaces MFS and MD (for post-boot use).

SWAPCACHE - Managed SSD support

This DragonFly feature allows SSD-configured swap to also be used to cache clean filesystem data and meta-data. The feature is carefully managed to maximize the write endurance of the SSD. Swapcache is typically used to reduce or remove seek overheads related to managing filesystems with a large number of discrete inodes. DragonFly's swap subsystem also supports much larger than normal swap partitions. 32-bit systems support 32G of swap by default while 64-bit systems support up to 512G of swap by default.

VARIANT SYMLINKS

Variant (context-sensitive) symlinks give users, administrators and application authors an extremely useful tool to aid in configuration and management. Special varsym variables can be used within an otherwise conventional symbolic link and resolved at run-time.

PROCESS CHECKPOINTING

Processes under DragonFly may be "checkpointed" or suspended to disk at any time. They may later be resumed on the originating system, or another system by "thawing" them.

DNTPD - DragonFly Network Time Daemon

DragonFly has its own from-scratch time daemon. After pulling our hair out over the many issues with open source time daemons we decided to write one ourselves and add new system calls to support it. DNTPD uses a double staggered linear regression and correlation to make time corrections. It will also properly deal with network failures (including lack of connectivity on boot), duplicate IPs resolved by DNS, and time source failures (typically 1 second off) when multiple time sources are available. The linear regression and correlation allows DNTPD to make rough adjustments and frequency corrections within 5 minutes of boot and to make more fine-grained adjustments at any time following when the linear regression indicates accuracy beyond the noise floor.

DMA - DragonFly Mail Agent

The DragonFly Mail Agent is a bare-bones (though not so bare-bones any more) mail transfer and mail terminus SMTP server which provides all the functionality needed for local mail delivery and simply remote mail transfers. A more sophisticated MTA can then be thrown onto an installed system via pkgsrc.

最新版本:4.2
DragonFly 4 支持 Haswell 图形和 3D 加速,改进了在极高网络流量的性能。DragonFly,现在支持 256 CPUs,Haswell 图形 (i915),pf 操作并发;支持其他各种设备;提升极高流量网络性能;对 i915 和 Radeon 的支持有显著更新,并转移到 GCC 5,替代了 Sendmai,同时还有 OpenSSL 更新,新的开机画面,改进了声音,改进USB支持。更多内容请查看发行日志

最新版本:4.6
该版本更好的支持NVMe,初步支持EFI ,增强提升SMP和网络方面的性能。i915 驱动和 Linux 4.4 内核里面的 i915 驱动版本保持一致,使得处理器更为稳定,尤其是对Broadwell 和 Skylake系列处理器支持更为友好。包含了许多内核性能方面的改进,对英特尔视频驱动程序的更好支持,并且现在支持使用 GPT 磁盘分区格式在 UEFI 环境中进行安装。更多改进信息,可查看完整发行说明
更新内容:
对 EFI 的支持:安装程序现在可以创建 EFI 或 legacy 安装。对用户空间工具和内核进行了许多调整,以支持使用 EFI 作为主流的引导环境。
/boot file 文件系统可以放置在自身的 GPT 切片中,也可以放置在 GPT 切片内的 DragonFly 磁盘标签中。DragonFly 默认情况下为所有 DragonFly 创建一个 GPT 切片,并将 DragonFly 磁盘标签放在其中,并附带所有标准的 DFly 分区,这样磁盘名称与旧版系统大致相同。
对图形支持的改进:i915 驱动程序已升级,以符合 Linux 4.6 内核(DragonFly 4.8.1 使用 Linux 4.7 内核),Broadwell 和 Skylake 处理器用户将看到改进。
更多内容可在项目发行主页中找到。

最新版本:5.0
DragonFly 5.0 带来了 DragonFly 下一代文件系统 HAMMER2 的第一个可启动版本,更新内容包括:
HAMMER2:初步的 HAMMER2 支持已经发展到 5.0 版本。这种支持被认为是实验性的,通常不适用于生产环境和重要数据,引导加载程序将支持 UFS 和 HAMMER2/boot 。因为/boot分区通常非常小,所以安装程序仍然使用UFS/引导,因为/boot分区通常非常小,像 HAMMER1 那样的 HAMMER2 在文件被删除或替换时并没有立即释放空间。DragonFly 5.0 具有单图像 HAMMER2 支持,具有实时重复数据删除(针对cp),压缩,快速恢复,快照和启动支持功能。HAMMER2 尚不支持 multi-volume 或者 clustering,尽管它存在命令。请现在使用非群集的单个图像。
IPFW在 DragonFly 中进行了一些更新,现在提供更好的性能,还支持pf和ipfw3。改进对显卡的支持,更多更新内容请点此处

最新版本:5.6
对 DragonFly 内核的更改是将 TCP keep-alive 选项从毫秒更改为秒,以与其他操作系统的行为相匹配。
将 TRAP_IS_SMAP() 测试移出 DDB 条件
修复 Signal_Pending_state() 中的空指针取消引用
在 SCSI_da 中添加 TPS 平衡模式
ZEN 2 -- 确保在 AP 引导程序中加载 %fs 的选择器
修复 NFS 死锁及重新排序 errno优先级 以取消链接目录错误的

最新版本:5.8
DragonFlyBSD 5.8.2 稳定版已于2020年9月发布,主要更新内容包括:
DSynth 现在支持 ccache 以及其他多项改进
对 HAMMER2 文件系统进行一些修复,以及增强对 pfs-list 和 pfs-delete 的支持
串行端口默认值从 9600 改为 115200
同步了来自 FreeBSD 的 xargs 代码,升级 Bzip2
针对安装工具以及发布的部分修复
内核方面的一些修复

最新版本:6.0
DragonFly BSD 6.0 稳定版已于20201年5月中旬正式发布,此版本包含经过改进的 VFS 缓存系统、针对文件系统的多项更新(包括 HAMMER2),以及 userland 更新。值得关注的变化如下:
改进内存分页,对内核进行代码优化,减少了内存碎片,以及其他优化
改进 EFI 帧缓存支持与重写 Callout API
现在可在启动过程中检测到有 Meltdown 漏洞的英特尔处理器
对 HAMMER2 文件系统进行清理,初步的多卷支持,以及其他优化
TMPFS 性能显著增强
支持较新的英特尔 I219 以太网控制器,以及其他更新
针对 Linux 4.10.17 的上游状态更新了图形驱动支持
AMDSMN 驱动程序已从 FreeBSD 移植过来
DSynth 现在支持 Zstd 压缩,以及其他多项更新
添加新的、非 GPL 的 EXT 2/3/4 文件系统驱动
GCC 8 是 DragonFlyBSD 6.0 的默认 C/C++ 编译器
更多详情查看发行公告

最新版本:6.2
6.2 已于2022年1月中旬发布,6.2 是 6.x 系列的重要版本,此版本具有对包含 NVMM 的虚拟机监视器 (type-2) 的硬件支持、amdgpu 驱动程序、远程挂载 HAMMER2 卷的试验性功能以及许多其他更改。

通过从 Linux 内核移植的"AMDGPU" DRM 内核驱动程序获得了现代 AMD Radeon 图形支持。虽然 6.2 具有 AMDGPU Linux 驱动程序的移植,但与上游 5.16 相比,它基于 Linux 4.19 内核,这意味着 RDNA2、Aldebaran 和其他最新一代的版本没有登陆,也没有任何最近的优化和功能。因此在 GPU 驱动程序支持方面,DragonFlyBSD 以及整个 BSD 继续远远落后于 Linux。此外在 6.2 中,对 Intel Whiskey Lake Gen9 显卡的支持也正在进行。另一个值得一提的变化是,DragonFlyBSD 6.2 的移植工作添加了 NVMM,它是 NetBSD 的管理程序,支持现代 Intel 和 AMD 处理器。DragonFlyBSD 6.2 包含 NVMM 管理程序在 BSD 上的完整移植。此版本继续改进了 DragonFly 的原始 HAMMER2 文件系统。DragonFlyBSD 6.2 的 HAMMER2 现在支持 growfs,可以改变现有卷的大小,xdisk 也包含在构建中,这样就可以远程挂载 HAMMER2 磁盘。不过远程 HAMMER2 安装目前处于试验性阶段。新版本还修复了 HAMMER2 的多项问题。最后,在6.2还修复了安全问题,增加了 Family 19h AMD Zen 3 温度监控支持,改进了内核的分页算法,支持 makefs FAT,更新多个软件包更新,以及改进 DSynth。更多详情请点此查看。

最新版本:6.4
6.4版本作为一个重大更新版本于2023年1月上旬发布,带来软件包升级和各类 Bug 修复,包含对带有 NVMM 的 2 型管理程序的硬件支持、amdgpu 驱动程序、远程安装 HAMMER2 卷的实验能力,以及许多其他更改。修复了一个本地可利用的内核漏洞及修复了一些问题:
修复 execvPe () s 环境传递问题
修复 ktrace 对 “长” 系统调用返回值的处理。
修复与退出竞争相关的 sysv 信号量问题
修复与死条目相关的名称缓存膨胀问题,该问题可能会随着时间的推移降低系统速度。
修复了几个干扰 nlookup*() 操作的名称缓存问题。
修复了一个名称缓存问题,该问题导致不必要的重新查找。
修复了 vnode 回收的多个问题,这些问题可能会导致长时间运行的系统变慢。
实现 mlockall () 的 MCL_CURRENT 特性,且通常与类似 linux 的期望相匹配。
修复 cache_resolve_mp () 中的锁顺序反转和死锁,当并发路径查找跨越安装边界时可能会被命中
从 FreeBSD 添加 gtaskqueue API
KERN_PROC - 更改进程列表检索的行为,默认情况下不包括纯内核线程。
值得注意的是,DragonFlyBSD 6.4 的默认系统编译器仍然是 GCC 8 ,没有得到升级。更多消息请参考更新公告


官方主页:http://www.dragonflybsd.org/


该文章最后由 阿炯 于 2023-01-05 20:10:57 更新,目前是第 2 版。