NVM Express
2022-01-22 22:06:34 阿炯

NVM Express(缩写NVMe),或称非易失性内存主机控制器接口规范(英语:Non-Volatile Memory Host Controller Interface Specification,缩写:NVMHCIS),是一个逻辑设备接口规范。它是基于设备逻辑接口的总线传输协议规范(相当于通讯协议中的应用层),用于访问通过PCI Express(PCIe)总线附加的非易失性存储器介质(例如采用闪存的固态硬盘驱动器),虽然理论上不一定要求PCIe总线协议。NVMe是一种协议,是一组允许SSD使用PCIe总线的软硬件标准;而PCIe是实际的物理连接通道。


NVM代表非易失性存储器(non-volatile memory)的首字母缩略字,这是固态硬盘(SSD)的常见的闪存形式。此规范主要是为基于闪存的存储设备提供一个低延时、内部并发化的原生界面规范,也为现代CPU、电脑平台及相关应用提供原生存储并发化的支持,令主机硬件和软件可以充分利用固态存储设备的并行化存储能力。相比此前机械硬盘驱动器(HDD)时代的AHCI(SATA下的协议),NVMe/NVMHCI降低了I/O操作等待时间、提升同一时间内的操作数、更大容量的操作队列等。

依托于PCIe总线,NVMe设备可适用于各种支持PCIe总线的物理插槽上,包括标准尺寸的PCIe扩展卡(一般是4个PCIe通道)、采用U.2物理连接界面(SFF-8639)的2.5英寸/3.5英寸标准尺寸固态硬盘驱动器、SATA Express总线(兼容于PCIe)的设备、M.2规格扩展卡等。此规范由NVMHCIS工作组负责管理,该工作组于2011年成立。


PCI Express型


M.2

历史上,大多数SSD使用如SATA、SAS或光纤通道等接口与计算机接口的总线连接。随着固态硬盘在大众市场上的流行,SATA已成为个人电脑中连接SSD的最典型方式;但SATA的设计主要是作为机械硬盘驱动器(HDD)的接口,机械结构的HDD使用读取臂做读写,与直接操作固态颗粒的SSD差异很大,并随着时间的推移越来越难满足速度日益提高的SSD。随着在大众市场的流行,许多固态硬盘的数据速率提升已经放缓。不同于机械硬盘,部分SSD已受到SATA最大吞吐量的限制。

在NVMe出现之前,高端SSD只得以采用PCI Express总线制造,但需使用非标准规范的接口。若使用标准化的SSD接口,操作系统只需要一个驱动程序就能使用符合规范的所有SSD。这也意味着每个SSD制造商不必用额外的资源来设计特定接口的驱动程序。2014年9月,在光纤通道(FC)上使用NVMe的新标准也正在开发。

2018年,NVMe包含NVMe、NVMe-MI以及NVMe-oF(NVMe over Fabrics)三个细分协议,其中NVMe为主协议,规范了host对盘的读写、访问以及资源管理等功能,NVMe-MI主要包括带外管理相关的功能,NVMe-oF主要是基于NVMe的网络协议规范,可以将FC等网络协议与NVMe进行结合起来。同时,并且三个协议在协同演进,未来将会围绕NVMe形成一个从盘到存储系统的端到端生态。同年基于NVMe的SSD已经可以突破15TB可用容量,读带宽达到6GB/s,100万IOPS(4KB随机读),同时保证微秒级延迟。

2009年Intel开始着手寻找SATA的替代方案。SATA作为串行接口,采用AHCI规范,其已经成为制约SSD速度的瓶颈。AHCI只有1个命令队列,队列深度32。而NVMe可以有65535个命令队列,每个队列都可以深达65536个命令。NVMe也充分使用了MSI的2048个中断向量优势,延迟大大减小。2011年有了1.0,最新的版本是1.2.1;最大带宽为11.6Gbps,约为1200MB/s。


PCI Express与传统的SATA差异

NVMe标准对比AHCI标准:

当数据从存储传输到服务器主机时,会进入一行或队列。传统的SATA连接只能支持一个队列,一次只能接收32条数据。而NVMe存储支持最多64000个队列,每个队列有64000个条目。

NVMe使用原生PCIe通道,免去了SATA与SAS接口的主机适配器与CPU通信所带来的延时。NVMe标准的延时只有AHCI的一半不到:NVMe精简了调用方式,执行命令时不需要读取寄存器;而AHCI每条命令则需要读取4次寄存器,一共会消耗8000次CPU循环,从而造成大概2.5微秒的延迟;支持同时从多核处理器接受命令和优先处理请求,这在企业级的重负载时优势明显。

NVMe还加入了自动功耗状态切换和动态能耗管理功能。设备从Power State 0闲置50ms后可以切换到Power State 1;继续闲置的话,在500ms后又会进入功耗更低的Power State 2,切换时会有短暂延迟。SSD在闲置时可以非常快速的控制在极低的水平,在功耗管理上NVMe标准的SSD会比AHCI SSD拥有较大优势。

主流操作系统支持情况

FreeBSD
Intel赞助开发的驱动程序已内置于FreeBSD的head、stable/9分支中。nvd(4)和nvme(4)驱动程序则是在10.2版FreeBSD中开始默认内置于其中。

Linux
NVMe的驱动程序最早是英特尔提供的,适用于Linux的内核驱动程序模块。这个模块在2012年3月19日集成到Linux内核的主线驱动程序当中,Linux内核3.3版开始内置支持而无需安装额外模块。

NVMe采用了多队列设计,最高支持64k个队列。2014年1月19日的Linux内核 3.13版开始,block层增加了multi-queue block layer,这一模块可以充分利用多核CPU和底层高速SSD硬件资源,主机CPU的I/O提交队列可以与SSD侧的提交队列进行绑定,即是说每个CPU核可以与SSD硬件的队列进行1:1或者n:m(比值取决于硬件设计)进行配置。对上层应用仍然是通用的块接口。从应用的角度,在某一个CPU Core上产生的IO请求,中断也会在此CPU Core处理, 性能更优。在SSD性能不是瓶颈的情况下,应用的性能能够实现在多核环境下按照CPU Core的数量扩展,这点与AHCI的CPU单队列访问存储设备的机制有所不同。

2015年4月12日发布的Linux内核 4.0版开始,VirtIO区块层驱动程序,SCSI驱动层(与SATA驱动共享)、回环设备驱动(loop device) UBI(unsorted block images)驱动(供闪存实现区块擦写管理)以及RBD驱动程序(which exports Ceph RADOS objects as block devices)都被修改,以适应及适配越来越多的NVMe设备。

Linux内核的存储控制堆栈中,NVMe的资料路径、不同层面下多重内部队列的位置


NetBSD
NetBSD在2016年的开发版本中初步支持NVMe。

OpenBSD
OpenBSD的NVMe驱动程序自2014年6月开始,由此前开发并发布USB、AHCI驱动程序的高级开发团队负责。OpenBSD 6.0开始正式支持。

Windows
微软在Windows 8.1和Windows Server 2012 R2开始,原生支持NVMe设备。同时也为Windows 7和Windows Server 2008 R2提供原生驱动程序支持(Windows 7与Windows Server 2008 R2默认不支持NVMe,需由用户自行下载获取)。除了微软官方提供的驱动程序以外,OpenFabrics Alliance也有维护一套开放源代码的NVMe驱动程序,使用于Windows 7、8、8.1、10以及Windows Server 2008 R2、2012、2012 R2,这套驱动程序由数个加入了NVMe工作组的公司开发,包括IDT、英特尔以及LSI。



官方主页:nvmexpress.org