盘点音视频及容器格式-FreeOA

盘点音视频及容器格式

2015-02-23 21:17:08

阿炯

视频容器格式设定了不同的视频文件格式来把视频和音频放在一个文件中，以方便同时回放，实际上都是一个容器里面包裹着不同的轨道。容器是用来区分不同文件的数据类型的，而编码格式则由音视频的压缩算法决定，我们一般所说的文件格式或者是后缀名指的就是文件的容器。对于一种容器，可以包含不同编码格式的一种视频和音频。

对于一种容器，可以包含不同编码格式的一种视频和音频。视频文件就是比如“avi文件”或者“mp4文件”。而实际上，avi和mp4只是容器格式。好比zip文件，里面可以包含各种文件，视频容器格式只是定义了怎么存储数据，而不论存储什么类型的数据。不过视频容器格式比这个更复杂一些，因为不是所有的视频流格式兼容所有的视频容器格式。一个视频文件一般包含多个track，而每个视频track(没有音频)又可对应一到多个音频track。这些track又总是相互关联的。每个音频track内部包含标记用于和视频同步，每个track可包括元数据，比如视频track的纵横比(视频长和宽)，或者音频track的语言。容器也可以有元数据，比如视频自身的题目，视频的封面，片段号码等等。

多媒体封装格式也称多媒体容器 (Multimedia Container)，它不同于DivX、 MP3这类编码格式，它只是为多媒体编码提供了一个“外壳”，常见的AVl、VOB、MPEG格式都是属于这种类型。但这些封装格式要么结构陈旧，要么不够开放，因此促成了Matroska这类新的多媒体封装格式的诞生，MKV就是它其中的一种。

文件格式(容器)(文件封装格式，也称多媒体容器)：

AVI (*.avi)

其含义是Audio Video Interactive(音频视频交错格式)，就是把视频和音频编码混合在一起储存，是最常见的音频视频容器，支持的视频音频编码也是最多的。AVI也是最长寿的格式，已存在10余年了，虽然发布过改版(V2.0于1996年发布)，但已显老态。

MPG (*.mpg/*.mpeg/*.dat)

MPEG编码采用的音频视频容器，具有流的特性。里面又分为 PS，TS 等，PS 主要用于 DVD 存储，TS 主要用于 HDTV。

VOB (*.vob)

DVD采用的音频视频容器格式(即视频MPEG-2，音频用AC3或者DTS)，支持多视频多音轨多字幕章节等。

MP4

MPEG-4编码采用的音频视频容器，基于 QuickTime MOV 开发，具有许多先进特性。

3GP

3GPP视频采用的格式，主要用于流媒体传送。

ASF (*.wmv/*.asf)

Advanced Systems Format(高级系统格式)，Windows Media 采用的音频视频容器，能够用于流传送，还能包容脚本等。 ASF封装的WMV视频具有“数位版权保护”功能。

RM (*.rm/*.rmvb)

RealMedia 采用的音频视频容器，用于流传送。由RealNetworks开发的一种容器，它通常只能容纳Real Video和Real Audio编码的媒体。可变比特率的RMVB格式，体积很小，非常受到网络下载者的欢迎。

MOV (*.mov)

QuickTime 的音频视频容器，恐怕也是现今最强大的容器，甚至支持虚拟现实技术，Java 等，它的变种 MP4、3GP都没有这么厉害。

MKV

MKV是多媒体封装格式(Multimedia Conta，也称多媒体容器)Matroska之中的一种媒体文件，MKV 能够把 Windows Media Video，RealVideo，MPEG-4 等视频音频融为一个文件，而且支持多音轨，支持章节字幕等。开放标准，开源。MKV最大的特点就是能容纳多种不同类型编码的视频、音频及字幕流。

简介Matroska：Matroska是一种新的多媒体封装格式(Multimedia Conta，也称多媒体容器)。它以可将多种不同编码的视频及16条以上不同格式的音频和不同语言的字幕流封装到一个Matroska Media文件当中。Matroska媒体定义了三种类型的文件：MKV是视频文件，它里面可能还包含有音频和字幕；MKA是单一的音频文件，但可能有多条及多种类型的音轨；MKS是字幕文件。这三种文件以MKV最为常见。

WAV

WAV是一种音频容器(注意：只是音频)，大家常说的 WAV 就是没有压缩的 PCM 编码，其实 WAV 里面还可以包括 MP3 等其他 ACM 压缩编码。

TS

MPEG-2 transport stream

(MPEG-2传送流)，用于数字广播等非可靠传输领域，也被蓝光采用。

音视频编码目前常见的视频音频编码有以下几类

---------------
MPEG系列

由ISO(国际标准组织机构)下属的MPEG运动图象专家组开发。

视频编码方面主要是Mpeg1(VCD用的就是它)、Mpeg2(DVD使用)、Mpeg4(现在的DVDRIP使用的都是它的变种，如：divx，xvid等)、Mpeg4 AVC(现在正热门)；

音频编码方面主要是MPEG Audio Layer 1/2、MPEG Audio Layer 3(就是mp3)、MPEG-2 AAC 、MPEG-4 AAC等等。注意：DVD音频没有采用Mpeg的H.26X系列。

MPEG-1

较早的视频编码，质量比较差，主要用于 CD-ROM 存储视频，国内最为大家熟悉的就是 VCD(Video CD)，他的视频编码就是采用 MPEG-1。

MPEG-2

在MPEG-1 的基础上开发的一种视频编码，它的质量远远好于 MPEG-1，所以被运用在了 DVD-Video 上面，MPEG-2 是DVD-Video 唯一指定的视频编码。MPEG-2 不光运用于 DVD-Video ，现在大部分 HDTV(高清电视)也采用 MPEG-2编码，分辨率达到了 1920x1080。由于 MPEG-2 的普及，本来为 HDTV 准备的 MPEG-3 最终宣告放弃。

MPEG-4

为了应对网络传输等环境，传统的 MPEG-1/2 已经不能适应，所以促使了 MPEG-4 的诞生。MPEG-4采用了一系列新技术，来满足在低带宽下传输较高视频质量的需求。DivX，XviD，MS MPEG4 都是采用的 MPEG-4 视频编码，除了在DVDRip 上面的应用，3GPP 现在也接纳了 MPEG-4 作为视频编码方案。

MPEG-4 AVC

它和 MPEG-4 是两种不同的编码，主要是在极低码率下 MPEG-4 表现并不好，而 AVC 更加适合低带宽传输。在高码率上，AVC的表现也要好过 MPEG-4，所以现在大有取代 MPEG-4 的趋势。下一代 HD DVD 和 Blue Ray Disc 已经正式接纳AVC 为视频编码方案之一，相信 AVC 的发展前途会非常好。

MPEG Audio Layer 1/2

也就是 MP1、MP2 ，较早的音频编码，是 MP3 的前身，主要用于 VCD，DVD，SVCD 的音频编码。

MPEG Audio Layer 3

大名鼎鼎的 MP3，已经成为网络音频的主流格式，能在 128kbps 的码率接近 CD 音质。

MPEG-2 AAC

在 MPEG-2 上开发的一种新的音频编码，和传统的 MPEG Audio 不兼容，它的质量理论上高于 MP3，并且支持多声道。在 96kbps 的码率范围内就能接近 CD 音质，比 MP3 更加适合地码率传输。

MPEG-4 AAC

AAC 已经作为 MPEG-4 标准的音频编码，当然 MPEG-4 Audio 还有其他多种音频编码。

MPEG-4 aacPlus

采用了 SBR 频带复制技术的 AAC，SBR 技术能够让音频编码降低一半的码率而音质不会有太大改变，已经成为 MPEG-4 标准的一部分。

MPEG-4 VQF

NTT 开发的一种音频格式，曾经销声匿迹了一段时间，只在 Nero 里面见到过它的身影。现在搭上 SBR 技术又进入了 MPEG-4 标准，似乎不甘心就这么被遗忘，据说在低比特率下表现比 aacPlus 更好。

MP3PRO

MP3 加上 SBR 技术诞生的一种产品，但是并没有得到多大推广，更没有进入标准。

MP3 Surround

让MP3 插上多声道的翅膀，Fraunhofer 开发的又一种 MP3 升级产品，听说 DivX 6 准备将它作为音频编码。Fraunhofer一直都在围绕着 MP3 升级，mp3PRO、MP3 Surround，这些产品都能和传统 MP3 兼容，但是随着层出不穷的新编码，不知道MP3 还能走多远。

---------------
H.26X系列

由ITU(国际电传视讯联盟)主导，侧重网络传输(注意：只是视频编码)。包括H261、H262、H263、H263+、H263++、H264(就是MPEG4 AVC-合作的结晶)

“ITU(InternationalTelecommunication Union)国际电传视讯联盟”主导的编码系列，主要应用于实时视频通信领域，如会议电视等。由于现在 MPEG系列也开始向这个领域进军，所以这两个组织也开始了密切的合作，如最近热门的 AVC/H.264，就是由 ITU 旗下的“VCEG(VideoCoding Experts Group)视频编码专家组”和“ISO(International Organization forStandardization)国际标准组织”旗下的“MPEG (Moving Pictures ExpertsGroup)运动图象专家组”联合制作发布的。

H.261

H.261是ITU-T为在综合业务数字网(ISDN)上开展双向声像业务(可视电话、视频会议)而制定的，它是最早的运动图像压缩标准，它详细制定了视频编码的各个部分，包括运动补偿的帧间预测、DCT变换、量化、熵编码，以及与固定速率的信道相适配的速率控制等部分。

H.263

H.263是ITU-T为低于64kb/s的窄带通信信道制定的视频编码标准，它是在H.261基础上发展起来的。

H.263+

H.263 的第二个版本，加入了许多新技术来扩展 H.263 的应用范围。

H.263++

在 H.263+ 上增加了几个选项，来增强码流在恶劣信道上的抗误码性能，同时提高增强编码效率。

H.264

也就是前面提到的 MPEG-4AVC。H.264是由ISO/IEC与ITU-T组成的联合视频组(JVT)制定的新一代视频压缩编码标准。在ISO/IEC中该标准命名为AVC(Advanced Video Coding)，作为MPEG-4标准的第10个选项；在ITU-T中正式命名为H.264标准。

H.265

国际标准化组织和国际电联组织联合制定的新一代视频压缩标准，主要面向高清数字电视以及视频编解码系统的应用。2012年8月，爱立信公司推出了首款H.265编码解码器，6个月后国际电联(ITU)就正式批准通过了该标准。H.265的目标是编码效率比H.264提高50%，即在同等图像质量条件下，目标码率下降到H.264的50%，带宽也只需原来的一半。该标准也同时支持从SQICF(128×96)到8K超高清(8192×4320)不同的视频应用。

3GPP

现在通讯领域最热门的话题之一，既然说了 MPEG 和 ITU，和这两个千丝万缕的 3GPP 应用就不得不提了。3GPP 的视频采用了MPEG-4 和 H.263 两种编码，可能还将加入 H.264，音频方面音乐压缩采用 AAC，语音则采用先进的 AMR，另一个aacPlus 随着 V2 版本的推出，底码率下的效果更加突出，也有望加入标准。

---------------
微软windows media系列

视频编码有Mpeg-4 v1/v2/v3(基于MPEG4，DIVX3的来源)、Windows Media Video 7/8/9/10。

音频编码有Windows Media audeo v1/v2/7/8/9 。

Microsoft 公司主导的音频视频编码系列，它的出现主要是为了进行网络视频传输，现在已经向 HDTV 方面进军，开发了 WMV HD 应用。

Microsoft MPEG-4 v1/v2/v3

最早的 ASF 采用的视频编码，基于 MPEG-4 技术开发，DivX3.11 就是基于 Microsoft MPEG-4 v3 破解出来的，后来才进行了重写。

Windows Media Video 7

Microsoft正式开发的第一个 Windows Media Video，开始脱离了 MPEG-4，和 MPEG-4不兼容，从这一点上可见微软的野心。可惜这个版本压缩效果非常烂，打破了微软一飞冲天的美梦，不过它在压缩速度上非常快，现在网络上有很多采用这种格式压缩的 WMV。

Windows Media Video 8

在 WMV7 基础上改进的版本，质量上面进不了不少。

Windows Media Video 9

微软的重头戏，不光是这一个编码，V9 系列更是一个平台，让微软有足够的能力挑战 MPEG，ITU等标准化组织。虽然这个版本并没有微软吹得那么厉害，特别是低码率下比较差，不过跟以前版本相比进步还是非常多的。特别是 WMV HD的应用，让微软也跻身视频标准领域。

Windows Media Video 9 Professional

WMV HD 应用的编码，和 WMV9 兼容，在高比特率上进行了优化，画面非常优秀。(不过几十M的码率能不优秀吗？全是体积换来的。)

Windows Media Video 9 Advanced Profile

随着 Windows Media Player 10 推出的编码器，能够更进一步控制 WMV9 的质量。但是不能在老版本的 WMP9 上播放，也就是不兼容老版本的 WMP9

Windows Media Video 9 Screen

静态屏幕无损压缩编码，质量非常好，压缩率高，只针对如屏幕等变化非常小的环境。

Windows Media Video 9 Image

静态图像压缩编码。

Windows Media Audio v1/v2 微软最早的音频编码技术，用于 ASF 中，后来被破解也用在 DivX Audio 中，质量比较差。

Windows Media Audio 7/8/9

随着各种不同的 WMV 而推出的相应的音频编码，质量节节提升，不过还没有达到 64kbps CD音质的神化。

Windows Media Audio 9 Professional

WMA9 中出现的新编码，主要用于多声道编码和高采样率音频的编码，质量不错。

Windows Media Audio 9 Voice

针对语音的编码，最高 20kbps ，不过和 AMR 相比，效果就太差了。

Windows Media Audio 9 Lossless

无损音频编码，可以完美保留CD原质量，是CD备份的不错选择，不过代价是体积过大。

---------------
Real Media系列

(注意，这里说的Real的编码，可不是rm、rmvb文件。)RealNetworks 所开发的系列编码技术，也是主要用于网络传输，在底码率下表现不错。

视频编码有RealVideo G2(早期)、RealVideo 8/9/10

音频编码有RealAudio cook/sipro(早期)、RealAudio AAC/AACPlus等

RealVideo G2

早期的 RealVideo 编码，质量比较糟糕，不过那时在网络上算是很先进了，毕竟当时能用网络看视频的人不多。

RealVideo 8

随着 RealPlayer 8 推出的视频格式，是现在主流的网络视频编码之一。编码速度较慢，质量也只能算一般。

RealVideo 9

RealNetworks 开发的新一代编码，质量进步了很多，特别是在底码率下，而且编码速度很快，做到了速与质的很好统一。

RealVideo 10

在 RealVideo 9 基础上加入了一些参数，如 EHQ 等，更加精确控制码率，和 RealVideo 9 兼容。

RealAudio Cook

早期的音频编码，但是在现在看来，仍然质量不错，可惜最高码率 96kbps。应用到了两代音频编码中：RealAudio G2、RealAudio 8。

RealAudio Cook Multichannel

Cook 的改进版本，增加了5.1声道的支持，应用到了 RealAudio 10 Multichannel 中。

RealAudio Sipro

采用了 Sipro 语音编码技术，主要针对语音编码，应用在更早期的 RealAudio 4.0、RealAudio 5.0 中。

RealAudio ATRAC3

Sony 公司开发的 ATRAC3 编码，被 RealNetworks 公司购买过来应用到了 RealAudio 8 中，以弥补 Cook 高码率上的不足。

RealAudio AAC

AAC 音频编码，用于 RealAudio 10 中。

RealAudio aacPlus

aacPlus 音频编码，用于 RealAudio 10 中，不过并没有随 RealProducer 发行，需要单独购买。

RealAudio Lossless

无损音频编码。

---------------
QuickTime系列

(是一个平台，有很多编码器)QuickTime 并不是一个编码，而是一个多媒体平台，它的上面有众多编码，这里只介绍几个主流的编码器。

视频编码有Sorenson Video 3(用于QT5，成标准了)、Apple MPEG-4、Apple H.264

音频编码有QDesign Music 2、Apple MPEG-4 AAC (这个不错)

Sorenson Video 2

Sorenson Media 公司开发的编码器，主要用于 QuickTime 4 的视频编码，质量较差。

Sorenson Video 3

Sorenson Media 公司随 QuickTime 5 发布的编码器，质量很不错，已经成为 QuickTime 的标准视频编码，网络上大部分电影预告片都采用这种编码。

Apple MPEG-4

Apple 公司自己开发的 MPEG-4 编码器，随 QuickTime 6 发布，质量很差。

Apple H.264

Apple 公司自己开发的 H.264 编码器，随 QuickTime 7 发布，支持 HDTV。

QDesign Music 1

QDesign 公司开发的音频编码器，这个版本现在已经开不到它的身影了。

QDesign Music 2

QDesign Music 的第二个版本，也是最后一个版本，在时下这些先进的音频编码面前，它已经没有生命力了，主要应用于网上的电影预告片。

Qualcomm PureVoice

Qualcomm 公司开发的语音编码器，质量不错。

Apple MPEG-4 AAC

Apple 公司自己开发的 AAC 编码器，质量非常好，是最优秀的 AAC 编码器之一，随 QuickTime 6 发布。

AMR Narrowband

AMR 语音编码器，这个版本只支持 AMR-NB。

Apple Lossless

Apple 公司开发的无损音频编码，主要应用于 iTunes 抓取 CD。

---------------
Ogg系列

Ogg 是 Xiph.org 基金会发起的一个开放源代码项目，包括视频音频，服务器，传输系统，客户端，硬件支持等，最为大家熟悉的就是音频 Ogg Vorbis，它被认为是迄今为止 128kbps 码率上最好的编码器。

Ogg Theora

Ogg 的视频编码，基于 On2 VP3 开发，现在还处于测试阶段。

Ogg Vorbis

Ogg 的音频编码，质量非常优秀，特别是低码率下，支持多声道。最高码率能够达到 500kbps，是 AAC 的有力竞争者。

Ogg Speex

Ogg 的语音编码，专门针对低码率的语音编码。

Ogg FLAC

Ogg 的无损音频编码

---------------
On2 VPX系列

On2 公司开发了一系列优秀的视频编码，现在应用得最多的恐怕是 Nullsoft Video 的视频，它们就采用了 VP3，VP5，VP6 视频编码。

VP3

已经作为开放源代码公布，现在是 Ogg Theora 项目，当然，Theora 的质量可比 VP3 好多了。

VP4

On2 公司当年吹牛全球最好的视频编码，后来证明质量很一般。

VP5

至今还很神秘，On2 并没有放出来，只在 Nullsoft Video 里面见到他的身影。

VP6

从一开始，On2 就把这个编码器提供给大家下载，质量还是不错的。不过最近似乎又关闭了，主页上只有一个解码器。

VP7

On2 最新的编码器，在 VP6 上有不少进步。

---------------
Flash Video

Macromedia公司推出的多媒体格式，主要用于在 Flash 中压缩视频。视频采用 Sorenson 公司的 Spark 编码器，音频采用MP3，质量比较差。传闻下一代 Flash Video 准备使用 On2 VP6 ，那将让视频质量得到一个量的提升。

特别说明：DVD这种媒介的音频编码，采用了相对独立的几种，常见的2个：AC3(杜比公司开发)、DTS。

---------------
高清电影的音频AC3和DTS

什么是AC3

1994年，日本先锋公司宣布与美国杜比实验室合作研制成功一种崭新的环绕声制式，并命名为“杜比AC-3”(Dolby Surround Audio Coding-3)。1997年初，杜比实验室正式将“杜比AC-3环绕声”改为“杜比数码环绕声”(Dolby Surround Digital)，我们常称为Dolby Digital。

杜比AC-3提供的环绕声系统由5个全频域声道和1个超低音声道组成，被称为5.1声道。5个声道包括左前、中央、右前、左后、右后。低音声道主要提供一些额外的低音信息，使一些场景，如爆炸、撞击等声音效果更好。除了超重低音部分外，其余皆是全频段Stereo声道，48KHz，16bit，且现场拍摄时每个声道皆是独立麦克风来录制，所以AC-3的后环绕声道拥有完整的定位能力。

AC-3发展当初是为了应用在电影院上的，AC-3音效因为胶卷的空间实在有限，所以AC-3音效的数据是存放在胶卷上，齿孔与齿孔的中间，这部分的空间实在太小了，所以杜比的工程师只好将他们认为人耳听不到的地方加以删除，藉以节省空间，这种破坏性的压缩还是会造成失真的，但是为了迁就原有器材上的限制，这也是逼不得已的做法。

AC-3数据的流量，两声道是192Kbps，大约是未压缩数据的8分之一大小，5.1声道的流量是384Kbps~448Kbps，最高可提升到640Kbps，越大的数据流量代表越小的压缩比例，音质相对的会更好，可听到的细节也会多，但Dolby AC-3将S/N比控制的很好，所以影响的重点就是可听到的细节多寡与否了。

什么DTS

Digital Theatre System 的缩写，即数码影院系统。它是1996年底推出的一种源自剧院模式开发的数码环绕声系统。DTS系统不仅具有 AC-3 相似功能，更加强了其纵深定位交叉效果。DTS 芯片容量为 1536kbps，压缩传输比为 4:1；而 AC-3 芯片容量为448kbps，压缩比为 10:1。正是由于DTS 信息容量的增加，音色更加优美，不但可以聆听Hi-Fi 音乐，同时也可以欣赏爆棚影视软件。由于DTS 以 20bit 在 48kHz 的频率中工作，提供 6 声道信息，它所创造出的音域环绕声效果，能满足众多AV 发烧友最挑剔的要求。听音者完全被这种气势所包围，真正体验360 度数码环绕音响效果。　　

DTS 和杜比数字在音质上有着明显的不同，前者声音力度强劲，声音的上升和切入都很尖锐，音场的透明感清晰可闻，尤其是丰富的低音效果表现得更加激烈火爆。后者在低音方面缺少丰富的力度，声音的上升和切入就显得有些暧昧。也就是说DTS 在某些细节和分辨力方面比AC-3还略胜一筹。它的另一个特点是能重放发烧友追求的HDCD，这就意味着DTS的声音表现能显著地超越目前任何最好的CD 录音。目前市面上已经有不少DTS格式的CD出品了。

从技术上讲，DTS与包括Dolby Digital在内的其它声音处理系统是完全不同的。Dolby Digital是将音效数据存储在电影胶片的齿孔之间，因为空间的限制而必须采用大量的压缩的模式，这样就不得不牺牲部分音质。DTS公司用一种简单的办法解决了这个问题，即把音效数据存储到另外的CD-ROM中，使其与影像数据同步。这样不但空间得到增加，而且数据流量也可以相对变大，更可以将存储音效数据的CD更换，来播放不同的语言版本。

关于DTS和AC3两者的对比

DTS是一种用于电影和音乐的高质量多音轨环绕声技术。DTS采用声音的相关性高效的压缩数据，使采样率在24-bit下达到192KHz。与CD相比，CD采用线性PCM编码，在16-bit下采样率仅为44.1KHz。声音能够被更真实的记录下来，并且更平滑、更具动态效果，使声音还原更接近于原始的效果。

AC3(全称Audio Coding3音频编码3)是杜比数码的同义词，杜比数码是一种高级音频压缩技术，它最多可以对6个比特率最高为448kbps的单独声道进行编码。6个声道的信息在制作和还原过程中全部数字化，信息损失很少，全频段的细节十分丰富。

相对而言是DTS好一些，DTS的音效是AC-3的2倍，DTS的效果突出在大声场，震撼力还有细致方面，不过AC-3比较常见，国产目前带DTS解码的相对比较少。

AC3(Dolby Digital Audio Code v3)和DTS(Digital Theater
Sound)这两种影院级的数字环绕系统已被广泛运用在DVD影碟的声音编码。也是爱好者们讨论最多的话题。两者都是基于多声道的编码技术，通用5.1声道(三组全频立体声)--左/右前置，中置/低音，左/右后置环绕。其中低音单元专门重放120HZ以下的低频，以增强效果。

从数据流量来看，AC3通常为384/448Kbps，采用了高压缩编码(12：1)，通过大副删除在理论上认为多余的细节信号，从而达到减少数据量的目的。实际上AC3的编码技术相当优秀，在如此低的数据流量下带给观众的依然是较为真实的声音体验。DTS的数据流量通常为768/1536Kbps，压缩比只有3：1，其从提高数字空间的利用率着手，使信息数据得以充分利用。理论上它的声场无论在真实性、细腻性、连续性、宽广性和层次性方面优于AC3。

视频压缩标准简史：从1929到2020

多年以来，人们设计出许多不同的算法来压缩视频。视频压缩虽然听起来是一个很现代的词，但其实它从模拟视频开始，已经有很长的历史了。在本节中会向大家一一介绍视频压缩史上的里程碑事件，正是这些事件的发生才有了今天的视频压缩。从过去到现在，各类视频压缩方法由最初的概念最终演化成现今的标准。很多压缩标准今天还在使用，人们也一直在继续开发和完善新的标准。

1929：首次出现帧间压缩

帧间压缩是指仅保留一张关键图像，以及后面帧与此图像之间的差异，这张关键图像被称为关键帧（Keyframe）。令人惊讶的是，关于帧间压缩的讨论可以追溯到1929年。英国的R.D. Kell提出将帧间压缩用于模拟视频，这一概念随后便延续下来并应用在今天的数字视频上。

1952：差分脉冲编码调制

下一个视频压缩的里程碑事件发生在1952年。贝尔实验室的B.M. Oliver 和 C.W. Harrison提出可以在视频编码中使用差分脉冲编码调制（DPCM）。在此之前，DPCM一直被用于音频（今天依然如此）。DPCM技术是指你可以从图像中采样，并据此推测未来的样本值。因为可以通过推测准确地重建图像，所以不需要存储太多图像数据。

1959：使用时间压缩的帧间预测编码

1959年，使用时间压缩的预测性帧间视频编码第一次被提出。时间压缩是指在一段视频中选择一组间隔的关键帧，只对这些关键帧的变化进行编码。作为其他帧的参考点，关键帧是唯一被记录下来的帧。这一概念由日本广播公司（NHK）的研究人员Y. Taki、M. Hatori和S. Tanaka提出。

1967：行程长度编码

行程长度编码（Run-length encoding，RLE）是指将连续出现的同一个数据值存储为单一值和出现次数，如输入数据流“AAABBCCCC”，输出的是连续数据值的计数序列“3A2B4C”。之后你可以利用这些信息准确地重建同一张图像！伦敦大学的研究人员A.H. Robinson 和C. Cherry提出这一概念，最初用于降低模拟电视信号的传输带宽。今天，行程长度编码仍在数字视频中使用。

20世纪70年代：早期数字视频算法

数字视频在70年代出现。发送视频时使用了和电信相同的技术——PCM（脉冲编码调制）。是不是有些眼熟？PCM就来自上文提到的DPCM。PCM以数字形式表示采样的模拟信号。它最初是音频标准，在70 年代被用来压缩数字视频。虽然可以传输视频，但它需要大码率且传输效率较低。

1972：数字视频的首次压缩

Nasir Ahmed，印裔美国电气工程师、计算机科学家

1972年左右，堪萨斯州立大学的Nasir Ahmed提出使用DCT编码压缩图像。DCT代表离散余弦变换（Discrete Cosine Transform），它将图像分成由不同频率组成的小块。在量化过程中，舍弃高频分量，剩下的低频分量被保存下来并用于后面的图像重建。由于舍弃了某些频率的图像，所以最终呈现出来的图像不会完全相同，但大多时候，这种差异不会被人们察觉。

1973：DCT技术成为一种图像压缩算法

DCT
Nasir Ahmed 与德克萨斯大学的 T. Natarajan 和 K.R. Rao 合作，实现了DCT图像压缩算法。1974年，他们发表了自己的工作成果。

1974：混合编码的发展过程

1974年，南加州大学的Ali Habibi将预测编码和DCT编码组合在一起使用。我们在上文提到过，预测编码是指猜测当前图像出现前后的数值。Habibi的算法只能应用于帧内图像，无法预测帧间图像。

1975：混合编码的进一步发展

John A. Roesse 和Guner S. Robinson进一步发展了Habibi的算法，使它可以应用于帧间，为此，他们尝试了各种方法，最终发现Ahmed的DCT技术和预测编码结合起来使用是最高效的。

1977：更快的DCT算法

陈文雄、 C.H. Smith 和S.C. Fralick一起优化了DCT算法，他们创立了Compression Labs公司，将DCT商业化。

1979~1981：运动补偿DCT视频压缩

Anil K. Jain 和Jaswant R. Jain 继续发展运动补偿DCT视频压缩技术。陈文雄使用他们的成果创造出一种结合了所有研究的视频压缩算法。运动补偿DCT上的持续研究工作使它最终成为了标准的压缩技术，从20世纪80年代一直使用到现在。

1984：首个数字视频压缩标准——H.120

前期的所有研究最终取得成果——第一个视频压缩标准H.120问世。该标准对于单个图像非常有用，但在维持帧间图像质量方面效果不佳，于1988年被修订。H.120是首个国际视频压缩标准，主要用于视频会议。这是一次伟大的成就，但由于H.120多方面的低效，许多公司不得不试验各种方法来完善这个标准。

1988：用H.261举行视频会议

H.261很可能是你见过或者使用过的一系列编解码器中的第一个。它是第一个有效使用帧内和帧间压缩技术的数字视频压缩标准。H.261 也是第一个在商业上成功的数字视频编码标准。它被用于全世界的视频会议，并引入混合的基于块的视频编码，该编码今天仍在许多视频标准（MPEG-1 第 2 部分、H.262/MPEG-2 第 2 部分、H.263 MPEG-4 第 2 部分、H.264/MPEG-4 第 10 部分和 HEVC）中使用。创建H.261标准的方法今天依然被广泛使用。它支持的最大分辨率是352x288。

虽然这个标准在国际上很受欢迎，但它在刚发布时并不完整。该标准分别在 1990 年和 1993 年进行了修订。H.261不包括处理编码的细节，仅用于解码视频。

1992：使用Motion JPEG（MJPEG）的PC多媒体应用

1992年，Motion JPEG被创建出来用于计算机上的多媒体应用。这种视频压缩技术将视频每一帧都分别压缩成JPEG图像。

1993：使用MPEG-1的视频CD

MPEG表示Moving Pictures Experts Group（动态图像专家组），它是ISO（International Standardization Organization，国际标准化组织）与IEC（International Electrotechnical Commission，国际电工委员会）联合成立的专门针对媒体编码制定国际标准的组织。1988年左右，他们开始合作制定今天为人所知的视频编码标准——MPEG-1。与 H.261 类似，MPEG-1虽然提供了示例实现，但没有包含如何编码视频的标准。因此，MPEG-1 会根据编码方式展现出截然不同的性能。

MPEG-1 专为压缩 VHS（Video Home System，家用录像系统）质量的原始数字视频、音频和元数据而设计，用于视频 CD、数字有线电视、卫星电视和供参考、存档和转录用的文件共享。它的最大分辨率为 352x288。你可能最了解音频中的 MPEG-1——它创造了MP3。

1994：使用H.262和MPEG-2的电视广播和DVD

MPEG-2 和 H.262 是同一个视频标准的不同名称，它由许多公司共同开发而成。该标准支持隔行扫描（这是一种用于模拟 NTSC、PAL 和 SECAM 电视系统的技术），并且使用了很多有趣的编码技术。下面介绍两种：

图像采样
MPEG-2通过图像采样技术减少数据。其中一种方法是将每一帧分割为奇偶两场图像交替扫描（一个场里包含所有奇数行，另一个场里包含所有偶数行），在显示时，先显示第一个场的交错间隔内容，然后再显示第二个场来填充第一个场使之完整。这种方法被称为隔行扫描。隔行扫描是一种减小数据量保证帧率的压缩方法。

另一种策略充分利用了人眼对亮度的感知优于颜色的特点。MPEG-2采用了色度二次采样（Chroma Subsampling）：这种视频编码方式对色度（颜色）信息使用的分辨率比对亮度（亮度）信息使用的分辨率低。因为人类对颜色的观察能力不强，即使有信息在压缩过程中失去也不会影响观看。这一策略的目的是减少存储彩色图像所用的数据，从而实现图像压缩不会降低质量。

I帧，P帧和B帧

MPEG-2使用不同种类的帧来压缩数据。I帧是帧内编码帧，I帧描述了图像背景和运动主体的内容，可以作为P帧和B帧的参考帧。P 帧也被称为预测帧，它包含自身与前面 I 帧、P 帧或 B 帧中的信息差异。B 帧类似于 P 帧，但它需要参考其前面一个I帧或P帧及其后面的一个P帧来生成一张完整的视频画面。

1995：使用DV存储数字视频

第一个 DV 规范被称为Blue Book，其中定义了录像带、录制调制方法、磁化和基本系统数据等共同特征。DV 使用 DCT 逐帧压缩视频。同MPEG-2一样，它使用色度二次采样进行进一步压缩。

DV 是由索尼和松下为专业用户和广播用户设计的。现在有了存储卡和固态驱动器，这种存储方法早已过时了。

1996：使用H.263的新一代视频会议标准

在H.261的基础上又实现了H.263。它利用DCT技术创建可用于视频会议的低码率压缩视频。这一标准广泛用于互联网上的 Flash 视频内容、YouTube 和 MySpace 等。它一直应用于整个互联网，直到H.264的出现。

1999：使用MPEG-4 第二部分的互联网视频

MPEG-4 第二部分（也称为 MPEG-4 Visual）是一种与H.263兼容的标准，常用于监控摄像以及高清电视广播和 DVD。它使用了比MPEG-2更高效的算法，且压缩速度更快。不过，因为它无法处理AVC（Advanced Video Coding，高级视频编码）格式，后面才有了MPEG-4 AVC。

2003：使用H.264/MPEG-4 AVC的蓝光、DVD、视频直播和广播电视

H.264/MPEG-4AVC（有时也被称为MPEG-4 第十部分）发布于2003年。这种压缩技术的目的是创建足够灵活的高清数字视频，以用于不同的系统、网络和设备。这是目前最流行的压缩标准。H.264不仅用于各种解码器、浏览器和移动设备，还用于卫星、互联网、电信网络和电缆。蓝光光盘、Netflix、Hulu、Amazon Prime Video、Vimeo、YouTube 以及你在互联网上看到的几乎所有视频都有它的身影。它支持的最大分辨率是4096x2048。

该标准以运动补偿整数DCT编码为基础。整数DCT变换是一种能够特别快实现余弦变换的算法。H.264 支持无损压缩和有损压缩，与早期的压缩标准相比，它非常灵活。另一个优点是，这项技术对互联网上播放的流媒体内容免费。

2013：使用H.265/HEVC的360°沉浸式视频、AR和VR

H.265/HEVC（High Efficency Video Coding，高效率视频编码）不仅可以做到H.264所能做的一切，而且表现更佳。它将文件大小减少了 50%，并支持非常高质量的视频分辨率 ——高达 8K（最大分辨率为 8192x4320）。虽然你通常无需用到 8K 或无法通过今天的设备和网络获取到它，但H.265对于AR、VR和 360° 等沉浸式体验非常有用。高昂的成本是它没有得到广泛应用的主要原因。除了Netflix 和 Amazon Prime Video 等大公司可以负担这笔费用外，其他许多公司仍然选择使用 H.264。

2013：VP9

VP9由谷歌开发，它是H.265的竞争对手。和H.265不同，它是免费的。H.265 在高码率时表现更好。H.265和VP9编码视频都需要一段时间，这会增加延迟。也正是由于这个问题，H.264才会被继续使用。由于免费的原因，VP9变得越来越流行。但是否会得到更广泛的应用还未可知。

2018：使用AV1的高质量网络视频

谷歌、亚马逊、思科、英特尔、微软、Mozilla 和 Netflix 决定一起创建一个新的视频格式标准——AV1。它是 VP9 之后的下一代视频标准，开源且免费。这种格式专为实时应用（如 WebRTC）设计且支持更高分辨率，目的是能够处理 8K 视频。它利用新技术实现了了我在上文提到的典型的基于块的DCT变换。通过更精确的方法将图像分成块并使用改进后的过滤，它可以准确地实现帧间预测。

2020：使用H.266/VVC实现商业上可行的4K、8K

H.266/VVC（Versatile Video Coding，多维度视频编码）主要面向 4K 和8K视频服务。它于 2020 年 7 月发布，是目前为止最新发布的视频压缩标准。H.266进一步优化了压缩（但没有其他创新），大约可节省50%的视频码率，同时确保视频清晰度不变。它使用基于块的混合视频编码方法，其思想是找到优化和改进现有算法和压缩技术的方法。H.266编码速度仍然很慢，但该标准在较低码率下提供了良好的质量改进。

我国拥有自主知识产权的第三代“信源编码”标准——AVS3

AVS3视频编码标准是中国AVS工作组制定的第三代标准。它的目的是适应多种应用场景，如超高清电视广播、虚拟现实和视频监控。AVS3的开发过程分为两个阶段。到目前为止，AVS3的第一阶段已经于2019年3月完成，它在4K超高分辨率视频方面比AVS2节省了大约30%的码率。此外，AVS3 的第二阶段正在开发更有效的编码工具以提高性能，尤其是监控视频和屏幕内容视频。

从1929到2020，视频压缩标准的历史就告一段落了。回顾这近100年的历史，正是在一代又一代个人和组织的不懈努力下，才有了今天的视频压缩标准。未来的视频压缩还会发生哪些变化？让我们一起拭目以待。

翻译：Alex

原文链接