硬件工程师培训教程(二)
2010-07-21 21:46:48 阿炯

第二章 CPU 的发展及相关产品技术
C P U (C e n t r a l P r o c e s s i n g U n i t),即中央处理单元,也称微处理器,是整个系统的核心,也是整个系统最高的执行单位。它负责整个系统指令的执行、数学与逻辑运算、数据存储、传送以及输入输出的控制。因为C PU 是决定电脑性能的核心部件,人们就以它来判定电脑的档次,于是就有了4 86 、5 8 6 (P e n t i u m)、P Ⅱ、P Ⅲ、P4 之分。C PU 既然关系着指令的执行和数据的处理,当然也关系着指令和数据处理速度的快慢,因而C PU 有不同的执行功能,不同的处理速度。一般C PU的功能和处理速度,我们可以从它的型号和编号来判断,如P e n t i um 系列是5 86 机种的C PU,型号后的数字即为它的工作频率(时钟频率),单位是M Hz 。
第一节 CPU 的历史
CPU 从最初发展至今已经有20 多年的历史了,这期间,按照其处理信息的字长,C PU 可以分为4 位微处理器、8 位微处理器、16 位微处理器、32 位微处理器以及64 位微处理器等等。在风起云涌的IT 业界,PC 机CPU 厂商主要以I n t el 、AMD 和V I A(威盛)三家为主,我们将以他们的产品为介绍重点。
一、Intel 阵营
I n t e l(英特尔)公司大家已经是如雷贯耳,不管你是否为计算机高手,也不管你是否是业内人士,只要你知道计算机这个词,对I n t el 就一定不会陌生。I n t el 是全世界硬件行业的老大,是世界上最大的芯片生产商和制造商。提到I n t el 公司就不能不谈谈I n t e l C PU 芯片的发展历程。按照国际上目前比较能够得到业内认同的说法,I n t el 的CPU 芯片主要经历了以下几个发展阶段:
1 .I n t e l 4 0 04
1971 年,Intel 公司推出了世界上第一款微处理器4004 。这是第一个用于个人计算机的4 位微处理器,它包含2 3 00 个晶体管,由于性能很差,市场反应冷淡。
2 .I n t e l 8 0 8 0 /8 0 85
在4 0 04 之后,I n t el 公司又研制出了8080 处理器和8 0 85 处理器,加上当时美国M o t o r o la 公司的M C 6 8 00 微处理器和Z i l og 公司的Z80 微处理器,一起组成了8 位微处理器家族。
3 .I n t e l 8 0 8 6 /8 0 88
16微处理器的典型产品是I n t el 公司的8086 微处理器, 以及同时生产出的数学协处理器,即8087 。这两种芯片使用互 相兼容的指令集,但在8 0 87 指令集中增加了一些专门用于对 数、指数和三角函数等数学计算的指令。由于这些指令应用于 8 0 86 和8 0 87,因此被人们统称为x 86 指令集。此后I n t el 推出新一代CPU 产品均兼容原来的x 86 指令集。
1979 年I n t el 公司推出了8 0 86 的简化版——8088 芯 片,它仍是16 位微处理器,内含2 9 0 00 个晶体管,时钟 频率为4 .7 7 M Hz,地址总线为20 位,可以使用1MB 内存。 8088 的内部数据总线是16 位,外部数据总线是8 位。1981 年,8 0 88 芯片被首次用于I B M PC 机当中,开创了个人电 脑的新时代。如果说8080 处理器还不为大多数人所熟知的话,那么8 0 88 则可以说是家喻户晓了,P C(个人电脑)机的第一代C PU 便是从它开始的。
4 .I n t e l 8 0 2 86
1982 年的I n t e l 8 0 2 86 虽然是16 位芯片,但是其内部已包含了1 3 .4 万个晶体管,时钟频率也到了前所未有的2 0 M Hz 。其内、外部数据总线均为16 位,地址总线为24 位,可以使用1 6 MB 内存,工作方式包括实模式和保护模式两种。
5 .I n t e l 8 0 3 8 6 D X /8 0 3 8 6 SX
32 位微处理器的代表产品首推I n t el 公司1 9 85 年推出的 8 0 3 86,这是一种全32 位微处理器芯片,也是x86 家族中第一款 32 位芯片,其内部包含了2 7 .5 万个晶体管,时钟频率为1 2. 5MHz,后逐步提高到3 3 M Hz 。8 0 3 86 的内部和外部数据总线都是 32 位,地址总线也是32 位,可以寻址到4 GB 内存。它除了具有 实模式和保护模式以外,还增加了一种虚拟3 86 的工作方式,可 以通过同时模拟多个8 0 86 处理器来提供多任务能力。
1 9 89 年,I n t el 公司又推出准32 位处理器芯片8 0 3 8 6 SX 。它 的内部数据总线为32 位,与8 0 3 86 相同,外部数据总线为16 位。也就是说,8 0 3 8 6 SX 的内部处理速度与8 0 3 86 接近,也支持真正 的多任务操作,并且可以使用为8 0 2 86 开发的输入/输出接口芯片。8 0 3 8 6 SX 的性能优于8 0 2 86,而价格只及8 0 3 86 的1/3 。386 处理器没有内置数学协处理器,因 此不能执行浮点运算指令,如果需要进行浮点运算,必须额外购买昂贵的8 0 3 87 数学协处理器。
6 .I n t e l 8 0 4 8 6 D X /8 0 4 8 6 SX
1 9 89 年,8 0 4 86 处理器面市,它集成了125 万个晶体管,时 钟频率由25MHz 逐步提升到33MHz 、4 0 M Hz 和50MHz 。80486 内含 80386 和数字协处理器80387 以及一个8KB 的高速缓存,并在x 86 系列中首次使用了RISC(精简指令集)技术,可以在一个时钟周期内执行一条指令。它还采用了突发总线方式,大大提高了与内存的数据交换速度。由于这些改进,8 0 4 86 的性能比带有8 0 3 87 数学协处理器的8 0 3 86 提高了4 倍。   
早期的486理器分为有数学协处理器的486DX 和无数学协处 理器的4 8 6 SX 两种,其价格也相差许多。随着芯片技术的不断发,C PU 的频率越来越快,而PC 机外部设备受工艺限制,能够 承受的工作频率有限,这就阻碍了CPU 主频的进一步提高,在这种情况下,出现了C PU 倍频技术,该技术使C PU 内部工作频率为处理器外频的2 ~3 倍,4 8 6 D X2 、 4 8 6 D X4 的名字便是由此而来。以后的日子里,C PU 开始了突飞猛进的发展。
7 .I n t e l P e n t i u m C l a s s i c(经典奔腾)
代号:P54C
发布时间:1993 年
核心频率:60 ~200MHz
总线频率:50 ~66MHz
工作电压:3.3V
制造工艺:0.8 ~0.35 μm
晶体管数目:310 ~330 万个
芯片面积:191mm 2
缓存容量:16KB L1 Cache
指令内置:x 86 指令集、x 86 译码器、80 位浮点单元
接口类型:Socket 7
早期的Pentium 处理器(主要是Pentium 60 和Pentium 66)存在浮点运算错误的问题,Intel 为此花4 亿美元回收了大批有问题的CPU,这在当时是十分冒险的行为,但Intel 的这一做法最终赢得了用户的信任,P e n t i um 再度成为市场上最畅销的产品。
8 .I n t e l P e n t i u m P r o(高能奔腾)
代号:P6
发布时间:1995 年
核心频率:150 ~200MHz
总线频率:60 ~66MHz
工作电压:3.1V/3.3V
制造工艺:0.5 ~0.35 μm
晶体管数目:550 ~700 万个
芯片面积:196mm 2
缓存容量:16KB L1 Cache 、256KB/512KB/1MB L2 Cache
指令内置:x 86 指令集、x 86 译码器、80 位浮点单元、分支预测功能
接口类型:Socket 8
9 .I n t e l P e n t i u m M MX
代号:P55C
发布时间:1997 年
核心频率:166 ~233MHz
总线频率:60 ~66MHz
内核电压:2.8V
I/O 电压:3.3V
制造工艺:0.35 μm
晶体管数目:450 万个
芯片面积:128mm 2
缓存容量:32KB L1 Cache
指令内置:x 86 指令集、x 86 译码器、80 位浮点单元、M MX 多媒体指令集
接口类型:Socket 7
P e n t i u m M MX 有1 6 KB 数据缓存、 1 6 KB 指令缓存和4 路写缓存,并增加了 从Pentium Pro 而来的分支预测单元和从 Cyrix 6x86 而来的返回堆栈技术。新增 的57 条M MX 指令用来处理音频、视频和图像数据,使C PU 在多媒体应用上的能 力大大增强。
1 0 .I n t e l P e n t i u m Ⅱ 代号:K l a m a t h (1 9 97 年上市)、 Deschutes(1998 年上市)
核心频率:233 ~333MHz(66MHz 外频)、350 ~450MHz(100MHz 外频)
总线频率:66 ~100MHz
制造工艺:0.35(Klamath)/0.25(Deschutes)μm
核心电压:2.8V(Klamath)/2.0V(Deschutes)
晶体管数目:750 万个
芯片面积:130.9mm 2
缓存容量:32KB L1 Cache 、512KB L2 Cache
接口类型:Slot 1
Pentium Ⅱ是在Pentium Pro 的基础上将内置的L2 Cache 移出,与C PU 焊在同一块电路板上,然后封装成卡匣形式而 成。外置L 2 C a c he 的容量为5 1 2 KB,以C PU 速度的一半运行。
1 1 .I n t e l C e l e r o n(赛扬)
代号:Covington
发布时间:1998 年
核心频率:266 ~300MHz
总线频率:66MHz
制造工艺:0.25 μm
晶体管数目:750 万个
芯片面积:153.9mm 2
缓存容量:32KB L1 Cache
接口类型:Slot 1
1 2 .I n t e l C e l e r o n M e n d o c i n o(新赛扬)
代号:Mendocino
发布时间:1998 年
核心频率:300 ~533MHz
总线频率:66MHz
制造工艺:0.25 μm
晶体管数目:1900 万个
芯片面积:153.9mm 2
缓存容量:32KB L1 Cache 、128KB L2 Cache
接口类型:Slot 1 、Socket 370
由于具有和Pentium Ⅱ一样的核心,所以Celeron 的浮点能力依然强劲,在游戏和3D 图形处理方面与P e n t i u m Ⅱ一样出色。但没有了L 2 C a c he,C e l e r on 的整数性能大打折扣,Celeron 266 的整数运算能力甚至还不及Pentium MMX 233,在与K6-2 的争斗中一败涂地。所以I n t el 又加入了1 2 8 KB 全速L 2 C a c he,此为新赛扬。
新赛扬只有128KB L2 Cache,虽然比 起P e n t i u m Ⅱ的5 1 2 KB 少得多,但其性能 并不比P e n t i u m Ⅱ差。因为新赛扬的缓存 速度与C PU 核心频率相同,而P e n t i u m Ⅱ 的缓存速度只有C PU 核心频率的一半。  
正因为如此,新赛扬不但具有同频 P e n t i u m Ⅱ的高性能,并且具有很强的超 频能力,部分300MHz Celeron A 能超到令 人吃惊的5 0 4 M Hz 甚至更高。
1 3 .I n t e l P e n t i u m Ⅲ
代号:K a t m ai 、C o p p e r m i ne
发布时间:1999 年
核心频率:450MHz 以上
总线频率:100 ~133MHz
CPU 核心电压:1.8V
制造工艺:0.25(Katmai)/0.18(Coppermine)μm
晶体管数目:950 万个
芯片面积:153.9mm 2
缓存容量:32KB L1 Cache 、512KB L2 Cache
指令内置:MMX 指令集和SSE 指令集
Pentium Ⅲ处理器增加了70 条SSE 指令,并具有惟一的处理 器序列号。
二、AMD 阵营
在CPU 市场的多年较量中,与Intel 始终相执不下的就是 CPU 芯片的另一霸主——同是美国公司的AMD 了。从K5 起,AMD 就一 直致力于与Intel 争夺在低端应用领域的市场份额。
1 .A M D K5
代号:5K86
发布时间:1996 年
核心频率:75 ~133MHz
总线频率:50 ~66MHz
CPU 核心电压:3.52V
制造工艺:0.35 μm
晶体管数目:430 万个
芯片面积:181mm 2
缓存容量:24KB L1 Cache(16KB 数据Cache 、8KB 指令Cache)
接口类型:Socket 7
K5 是AMD 公司第一块自行设计的处理器,时钟频率有90MHz 、100MHz 、120MHz 等几款。AMD 也采用P-Rating 系统,该系统本身就是与Cyrix 协作开发出来的。尽管K5 的浮点运算能力比6x86 稍强一些,但也好不到哪里去。同时由于K5 的时钟频率比不上Cyrix,所以它在CPU 市场并不成功。但是1 年以后,分别比90 、100 和116.66MHz 更快的120 、133 和166MHz AMD P-Rating 处理器又杀了回来。由于推出的时间较晚,因此刚一推出就面临着被Intel 公司淘汰出局的悲惨命运。
2 .A M D K6
发布时间:1997 年
核心频率:166 ~300MHz
总线频率:66MHz
CPU 核心电压:2.9 ~3.2V
I/O 电压:3.3V
制造工艺:0.35 ~0.25 μm
晶体管数目:880 万个
芯片面积:68/162mm 2
缓存容量:64KB L1 Cache
指令内置:MMX 多媒体指令集
接口类型:Socket 7
这是AMD 公司并购NexGen 公司之后制造的第一代K6 处理器, 性能基本达到了低频P Ⅱ处理器的水平,缺点是发热量较大。K6 和Cyrix 6x86/MX 性能相当。第一代1 6 6 M Hz 和200MHz K6 处理器的内核电压是2 .9V,输入/输出电压为3.3V,而第二代2 33 、2 66 和3 0 0 M Hz 的K6 都为3 .2V 。A MD K6 和C y r i x 6 x 8 6 MX 的整数运算能力接近3 年前的P e n t i u m P ro,但它们的浮点运算速度仍然不快。
3 .A M D K 6 -2
代号:Chomper
发布时间:1998 年
核心频率:266 ~550MHz
总线频率:66 ~100MHz
CPU 核心电压:2.2V
制造工艺:0.25 μm
晶体管数目:930 万个
芯片面积:68mm 2
缓存容量:64KB L1 Cache
指令内置:3 D N o w!指令集、M MX 多媒体指令集
接口类型:Socket 7
K6-2/3DNow!采用了和K6 一样的内核,支持MMX 指令和 3DNow!指令。随着DirectX 和 OpenGl 等应用程序接口提供对 3DNow!的支持,K6-2 处理器在游戏和图形应用领域的表现比其上一代产品有了质的提高。 
4 .A M D K 6 -3
代号:Sharptooth(利齿)
发布时间:1999 年
核心频率:350 ~550MHz
总线频率:66/100MHz
CPU 核心电压:2.2V/2.4V
CPU I/O 电压:3.3V
制造工艺:0.25 μm
晶体管数目:2130 万个
芯片面积:135mm 2
缓存容量:64KB L1 Cache 、256KB L2 Cache
指令内置:3 D N o w!指令集、MMX 多媒体指令集
接口类型:Socket 7
K6-3 是AMD 公司最后一款支持Super 7 架构的CPU,其特 点是内置了256KB 全速L2 Cache(超过新赛扬的128KB),并持主板上的512KB ~2MB 三级Cache,支持MMX 和3DNow!指 令集,性能不错,但成品率较低,与上一代产品相比价格偏贵。
5 .A M D A t h l on
代号:K7
发布时间:1999 年
核心频率:500MHz 以上
总线频率:200MHz
CPU 核心电压:1.6(K7 核心)或1.7V/1.8V(K75 核心)
制造工艺:0.18/0.25 μm
晶体管数目:2130 万个
芯片面积:120mm 2
缓存容量:128KB L1 Cache 、512KB ~8MB L2 Cache
指令内置:3DNow!指令集、MMX 多媒体指令集、部分SSE 指令
接口类型:Slot A
AMD Athlon 采用了E V6 总线架构,可以上到2 0 0 M Hz 的 外频,同样支持M MX 指令集和3 D N o w!指令集。为了在C PU 上集成更多的缓存,A MD 不得不从Socket 架构转变到S l ot 架构。集成在CPU 电路板上的L 2 C a c he 最大可达到8 MB 。
Athlon 有两种规格,一种采用0.25 μm 工艺制造,使用K7 核心,工作电压为1 .6V,缓存速度为内核速度的一半。另一种采用0 .18 μm 工艺制造,使用K75 核心,缓存速度为 内核速度的1/3 或2/5,工作电压为1 .7V 或1 .8V 。AMD 的 Slot A 架构与Intel 的Slot 1 架构在物理上完全兼容,但电气性能不兼容,因此,用户不能在P e n t i u m Ⅱ主板上安装A t h l on,反之亦然。
Athlon 处理器还采用大容量缓存提高性能,在CPU 核心中集成了128KB 一级缓存,其容量为PentiumⅡ处理器的4 倍,而二级缓存则采用类似Intel Xeon 的配置,标准版本的二级缓存为512KB,工作在处理器主频速度一半的状态下。A t h l on 还具备3 个并行的超标量结构,在一个时钟周期中可以处理比Pentium Ⅲ更多的指令。
除了上述C PU 市场的两大霸主外,几年来,由于众多的厂商都看好C PU 芯片这个市场,于是便有了以下的内容。
三、非I ntel 、AMD “I nsi de ”一派
1 .C y r i x 6 x 8 6 /6 x 8 6L
发布时间:1995 年
核心频率:100 ~150MHz
总线频率:50 ~75MHz
CPU 核心电压:3.3V/3.52V(6x86)/2.8V(6x86L)
I/O 电压:3.3V/3.52V(6x86)/3.3V(6x86L)
制造工艺:0.65 μm(6x86)/0.35 μm(6x86L)
晶体管数目:300 万个
缓存容量:16KB L1 Cache
接口类型:Socket 7
美国Cyrix 公司是第一家胆敢与P e n t i u m P ro 一较高低的公司,就像其将CPU 命名为6 x 86 一样, 多少有点瞒天过海的味道,这是试图超越I n t el 高性能处理器的第一次尝试。不幸的是,6 x 86 并没 有击败P e n t i u m P ro 。汲取了以前的教训,C y r ix 决定改变它的市场策略,转而用6x86 与P e n t i um 竞争。6x86 的运行速度比同频率的P e n t i um 要快一个级别,如时钟频率为1 3 3 M Hz 的6x86 与166MHz 的P e n t i um 相当。也因为这个成就,C y r ix 和A MD 让用户们明白了在较慢的时钟频率下,处理器的 速度可以更快。于是,一种名为“P -R a t i ng ”(性能评级)的处理器评级系统出现了(也是后来AMD 公 司所采用的方式)。
“P-Rating ”简单衡量了6 x 86 处理器相对于Pentium 的性能。133MHz 的6x86 之所以叫做“Cyrix6x86 P166+”,是因为它的速度和Pentium 166 相差无几。但6x86 的浮点运算能力很差,6x86 P166+的浮点能力仅与Pentium 90 相当。
由于6 x 86 的发热量很大,所以C y r ix推出了一款采用双电压设计的6 x 8 6L,核心电压为2 .8V, 大大降低了发热量。不过6x86 和6 x 8 6L 都存在一定的兼容性问题,有些软件需要安装特定的补丁程序才能正常运行。在 I n t el 推出P e n t i um MMX 以后,Cyrix 也推 出了6x86MX,其整数 性能在当时是最高 的,但浮点运算能力 依然没有多大改观。
2.Cyri x M Ⅱ 发布时间:1998 年
核心频率:225 ~300MHz
总线频率:66 ~100MHz
CPU 核心电压:2.8V
I/O 电压:3.3V
制造工艺:0.35 ~0.25 μm
晶体管数目:650 万个
缓存容量:64KB L1 Cache
接口类型:Socket 7
在推出6x86后,为了进一步与Pentium MMX 争夺市场,Cyrix沿用C y r i x 6 x 8 6 MX 的设计模式,生产出了名叫 C y r i x M Ⅱ的新型处理芯片。从6 x 86 到M Ⅱ的变化,不仅在于其M MX 指令集的改变,整个处理器 的设计工艺也有所变化。如果配合Cyrix 专用的散 热芯片和风扇,M Ⅱ不再烫得可怕,同时F PU (F l o a t P o i n t U n it,浮点运算单元)的性能也大 幅提高了。但它的总体性能仍比P e n t i u m M MX 低, 甚至在A M D K6 之下。
3.Cyri x Medi aGX 发布时间:1997 年
核心频率:120 ~233MHz
总线频率:60 ~66MHz
晶体管数目:240 万个
缓存容量:16KB L1 Cache
C y r i x M e d i a GX处理器由于将声音、PCI 控制、I/O和图像处理整合于一体,直接焊在主板上, 使得成本相当低廉。虽然C y r i x M e d i a GX 开了整合处理器的先河,但市场反响平淡。
4.Wi nChi p C6
发布时间:1997 年
核心频率:180 ~240MHz
总线频率:60 ~75MHz
电压:3.3V/3.52V(单电压)
制造工艺:0.35 μm
晶体管数目:540 万个
缓存容量:64KB L1 Cache
指令内置:MMX 多媒体指令集
接口类型:Socket 7
IDT(Integrated Device Technology,集成设备技术)公司开发了一款名为WinChip C6 的处理 器。这款处理器体积小、售价低、耗电量少,却能完成当时典型处理器所能完成的工作。I DT W i n C h i p C6 瞄准了1000 美元以下台式机市场和2000 美元以下笔记本市场 。W i n C h ip 的工作频率在 1 8 0 M Hz 以上,当然也包括了新的M MX 指令集。W i n C h ip 采用了R I S C (精简指令集计算)设计。尽管指 令简单,性能却不差。通过使用大容量片内缓存和缓存及转换索引表(T L B)算法,提高了内存的使用效率,缓解了系统总线的瓶颈问题。W i n C h i p C6 最大的缺点就是浮点运算能力不强。
在相同时钟频率下进行浮点运算时,WinChip C6 的FPU 远不及P e n t i um 的速度快。由于MMX 性能取决于F PU 性能,所以它仍然落后于P e n t i um 。1998 年5 月,I DT 又发布了W i n C h i p 2 和WinChip 2 -3D,在W i n C h ip 的基础上改进了MMX 单元并加强了浮点运算能力,两者的区别是后者带有3 D N o w!指令集。I DT 处理器的一大特点是发热量很小。
第二节 CPU 的制造工艺
CPU 从诞生至今已经走过了20 余年的发展历程,C PU 的制造工艺和制造技术也有了长足的进步和发展。在介绍C PU 的制造过程之前,有必要先单独地介绍一下C PU 处理器的构造。
从外表观察,C PU 其实就是一块矩形固状物体,通过密密麻麻的众多管脚与主板相连。不过, 此时用户看到的不过是C PU 的外壳,用专业术语讲也就是C PU 的封装。
而在CPU 的内部,其核心则是一片大小通常不到1/4 英寸的薄薄的硅晶片(英文名称为D ie,也就是核心的意思,P Ⅲ C o p p e r m i ne 和Duron 等C PU 中部的突起部分就是Die)。可别小瞧了这块面积不大的硅片,在它上面密不透风地布满了数以百万计的晶体管。这些晶体管的作用就好像是我们大脑上的神经元,相互配合协调,以此来完成各种复杂的运算和操作。
硅之所以能够成为生产CPU核心的重要半导体素材,最主要的原因就是其分布的广泛性且价格便宜。此外,硅还可以形成品质极佳的大块晶体,通过切割得到直径8 英寸甚至更大而厚度不足1 毫 米的圆形薄片,也就是我们平常讲的晶片(也叫晶圆)。一块这样的晶片可以切割成许多小片,其中 的每一个小片也就是一块单独C PU 的核心。当然,在执行这样的切割之前,我们也还有许多处理工 作要做。
Intel 公司当年发布的4004 微处理器不过2300 个晶体管,而目前P Ⅲ铜矿处理器所包含的晶体管 已超过了2000 万个,集成度提高了上万倍,而用户却不难发现单个CPU 的核心硅片面积丝毫没有增 大,甚至越变越小,这是设计者不断改进制造工艺的结果。
除了制造材料外,线宽也是CPU 结构中的重要一环。线宽即是指芯片上的最基本功能单元门电路 的宽度,因为实际上门电路之间连线的宽度同门电路的宽度相同,所以线宽可以描述制造工艺。缩 小线宽意味着晶体管可以做得更小、更密集,可以降低芯片功耗,系统更稳定,C PU 得以运行在更 高的频率下,而且可使用更小的晶圆,于是成本也就随之降低。
随着线宽的不断降低,以往芯片内部使用的铝连线的导电性能已逐渐满足不了要求,未来的处理器将采用导电特性更好的铜连线。AMD 公司在其面向高端的Athlon 系列Thunderbird(雷鸟)处理器 的高频率版本中已经开始采用铜连线技术。这样复杂的构造,大家自然也就会更关心“CPU 究竟是 怎么做出来的呢” 。客观地讲,最初的C PU 制造工艺比较粗糙,直到晶体管的产生与应用。众所 周知,C PU 中最重要的元件就属晶体管了。晶体管就像一个开关,而这两种最简单的“开和关” 的选择对应于电脑而言,也就是我们常常挂在嘴边的“0 和1 ”。明白了这个道理,就让我们来看 看C PU 是如何制造的。
一、C P U 的制造
1.切割晶圆
所谓的“切割晶圆”也就是用机器从单晶硅棒上切割下一片事先确定规格的硅晶片,并将其划 分成多个细小的区域,每个区域都将成为一个C PU 的内核(D i e)。
2.影印(P h o t o l i t h o g r a p hy)
在经过热处理得到的硅氧化物层上面涂敷一种光阻(Photoresist)物质,紫外线通过印制着CPU 复 杂电路结构图样的模板照射硅基片,被紫外线照射的地方光阻物质溶解。
3.蚀刻(E t c h i n g)
用溶剂将被紫外线照射过的光阻物清除,然后再采用化学处理方式,把没有覆盖光阻物质部分 的硅氧化物层蚀刻掉。然后把所有光阻物质清除,就得到了有沟槽的硅基片。
4.分层
为加工新的一层电路,再次生长硅氧化物,然后沉积一层多晶硅,涂敷光阻物质,重复影印、 蚀刻过程,得到含多晶硅和硅氧化物的沟槽结构。
5.离子注入(I o n I m p l a n t a t i o n)
通过离子轰击,使得暴露的硅基片局部掺杂,从而改变这些区域的导电状态,形成门电路。 接下来的步骤就是不断重复以上的过程。一个完整的C PU 内核包含大约20 层,层间留出窗口, 填充金属以保持各层间电路的连接。完成最后的测试工作后,切割硅片成单个CPU 核心并进行封装, 一个C PU 便制造出来了。
另外,除了上述制造步骤外,生产C PU 的环境也十分重要,超洁净空间是C PU 制造的先决条 件。如果拿微处理器制造工厂中生产芯片的超净化室与医院内的手术室比较的话,相信后者也是 望尘莫及。作为一级的生产芯片超净化室,其每平方英尺只允许有一粒灰尘,而且每间超净化室 里的空气平均每分钟就要彻底更换一次。空气从天花板压入,从地板吸出。净化室内部的气压稍 高于外部气压。这样,如果净化室中出现裂缝,那么内部的洁净空气也会通过裂缝溜走,以此 来防止受污染的空气流入。 同时,在处理器芯片制造工厂里,I n t el 公司的上千名员工都身穿一 种特殊材料制造的“兔装”工作服。这种“兔装”工作服其实也是防尘的手段之一,它是由一 种极其特殊的非棉绒、抗静电纤维制成,可以避免灰尘、脏物或其他污染源损坏生产过程中的计 算机芯片。兔装可以穿着在普通衣服的外面,但必须经过含有54 个单独步骤的严格着装检验程
序,而且当着装者每次进入和离开超净化室时都必须重复这个程序。
二、C P U 的封装
自从I n t el 公司1971 年设计制造出4 位微处理器芯片以来,在20 多年里,CPU 从Intel 4004 、8 0 2 86 、8 0 3 86 、8 0 4 86 发展到P e n t i um 、P Ⅱ、P Ⅲ、P4,从4 位、8 位、16 位、32 位发展到 64 位;主频从MHz 发展到今天的GHz;CPU 芯片里集成的晶体管数由2000 多个跃升到千万以上;半导体制 造技术的规模由SSI 、MSI 、LSI 、V L S I(超大规模集成电路)达到U L SI 。封装的输入/输出(I /O)引 脚从几十根,逐渐增加到几百根,甚至可能达到2 0 00 根。这一切真是一个翻天覆地的变化。对于CPU,读者已经很熟悉了,2 86 、3 86 、486 、P e n t i um 、P Ⅱ、C e l e r on 、K6 、K 6 -2 、A t h l on …… 相信您可以如数家珍似地列出一长串。但谈到C PU 和其他大规模集成电路的封装,知道的人未必很多。
所谓封装是指安装半导体集成电路芯片用的外壳,它不仅起着安放、固定、密封、保护芯片 和增强导热性能的作用,而且还是沟通芯片内部世界与外部电路的桥梁——芯片上的接点用导线连接 到封装外壳的引脚上,这些引脚又通过印刷电路板上的导线与其他器件建立连接。因此,封装对CPU 和其他LSI(Large Scale Integration)集成电路都起着重要的作用,新一代C PU 的出现常常伴随着 新的封装形式的使用。
芯片的封装技术已经历了好几代的变迁,从D IP 、Q FP 、P GA 、B GA 到C SP 再到M CM,技术指标一代比一代先进,包括芯片面积与封装面积之比越来越接近于1 ,适用频率越来越高,耐温性能越 来越好,引脚数增多,引脚间距减小,重量减小,可靠性提高,使用更加方便等等。下面将对具体的封装形式作详细说明。
1 .D IP 封装
20 世纪70 年代流行的是双列直插封装,简称DIP(Dual In-line Package)。D IP 封装结构具有 以下特点:
(1)适合PCB(印刷电路板)的穿孔安装;
(2)比TO 型封装易于对PCB 布线;
(3)操作方便。
D IP 封装结构形式有:多层陶瓷双列直插式DIP,单层陶瓷双列直插式DIP,引线框架式DIP(含 玻璃陶瓷封接式,塑料包封结构式,陶瓷低熔玻璃封装式)等。
衡量一个芯片封装技术先进与否的重要指标是芯片面积与封装面积之比,这个比值越接近1 越 好。以采用40 根I/O 引脚塑料双列直插式封装(P D I P)的CPU 为例,其芯片面积/封装面积=(3 × 3 )/(1 5 .24 ×5 0 )=1 :86,离1 相差很远。不难看出,这种封装尺寸远比芯片大,说明封装效率 很低,占去了很多有效安装面积。I n t el 公司早期的C PU,如8 0 86 、8 0 2 86,都采用P D IP 封装 (塑料双列直插)。
2.载体封装
20 世纪80 年代出现了芯片载体封装,其中有陶瓷无引线芯片载体LCCC(Leadless Ceramic Chip Carrier)、塑料有引线芯片载体PLCC(Plastic Leaded Chip Carrier)、小尺寸封装SOP(Small Outline Package)、塑料四边引出扁平封装PQFP(Plastic Quad Flat Package)。
以0 .5 mm 焊区中心距、208 根I/O 引脚QFP 封装的CPU 为例,如果外形尺寸为2 8 mm ×2 8 mm,芯片尺寸为1 0 mm ×1 0 mm,则芯片面积/封装面积=(10 ×1 0 )/(28 ×28)=1:7.8,由此可见Q FP 封装比DIP 封装的尺寸大大减小。Q FP 的特点是:
(1)用SMT 表面安装技术在PCB 上安装布线;
(2)封装外形尺寸小,寄生参数减小,适合高频应用;
(3)操作方便;
(4)可靠性高。
Intel 公司的8 0 3 86 处理器就采用塑料四边引出扁平封装(P Q F P)。
3 .B GA 封装
20 世纪90 年代随着集成技术的进步、设备的改进和深亚微米技术的使用,LSI 、V L SI 、U L SI相继出现,芯片集成度不断提高,I /O 引脚数急剧增加,功耗也随之增大,对集成电路封装的 要求也更加严格。为满足发展的需要,在原有封装方式的基础上,又增添了新的方式——球栅 阵列封装,简称B G A (B a l l G r i d A r r a y P a c k a g e)。BGA 一出现便成为C PU 、南北桥等V L SI 芯 片的最佳选择。其特点有:
(1 )I /O 引脚数虽然增多,但引脚间距远大于QFP,从而提高了组装成品率;
(2)虽然它的功耗增加,但BGA 能用可控塌陷芯片法焊接,简称C4 焊接,从而可以改善它的电热性能;
(3)厚度比QFP 减少1/2 以上,重量减轻3 /4 以上;
(4)寄生参数减小,信号传输延迟小,使用频率大大提高;
(5)组装可用共面焊接,可靠性高;
(6 )B GA 封装仍与Q FP 、P GA 一样,占用基板面积过大。
Intel 公司对集成度很高(单芯片里达3 00 万只以上晶体管)、功耗很大的CPU 芯片,如P e n t i um 、 P e n t i u m P ro 、P e n t i u m Ⅱ采用陶瓷针栅阵列封装(C P G A)和陶瓷球栅阵列封装(CBGA),并在外壳上 安装微型排风扇散热,从而使C PU 能稳定可靠地工作。
4.面向未来的封装技术
B GA 封装比Q FP 先进,更比P GA 好,但它的芯片面积/封装面积的比值仍很低。
T e s s e ra 公司在BGA 基础上做了改进,研制出另一种称为μBGA 的封装技术,按0 .5 mm 焊区中心距,芯片面积/封装面积的比为1 :4,比B GA 前进了一大步。
1994 年9 月,日本三菱电气研究出一种芯片面积/封装面积=1:1.1 的封装结构,其封装外形尺寸只 比裸芯片大一点点。也就是说,单个IC 芯片有多大,封装尺寸就有多大,从而诞生了一种新的封装 形式,命名为芯片尺寸封装,简称CSP(Chip Size Package 或Chip Scale Package)。CSP 封装具有以 下特点:
(1)满足了LSI 芯片引出脚不断增加的需要;
(2)解决了IC 裸芯片不能进行交流参数测试和老化筛选的问题;
(3)封装面积缩小到BGA 的1 /4 甚至1 /10,延迟时间大大缩小。
曾有人想,当单芯片一时还达不到多种芯片的集成度时,能否将高集成度、高性能、高可靠 的CSP 芯片(用LSI 或IC)和专用集成电路芯片(ASIC)在高密度多层互联基板上用表面安装技术(SMT)组 装成为多种多样电子组件、子系统或系统。由这种想法产生出多芯片组件MCM(Multi Chip Model)。
它将对现代化的计算机、自动化、通讯业等领域产生重大影响。M CM 的特点有:
(1)封装延迟时间缩小,易于实现组件高速化;
(2)缩小整机/组件封装尺寸和重量,一般体积减小1 /4,重量减轻1 /3;
(3)可靠性大大提高。
随着LSI 设计技术和工艺的进步及深亚微米技术和微细化缩小芯片尺寸等技术的使用,人们产生 了将多个LSI 芯片组装在一个精密多层布线的外壳内形成MCM 产品的想法。进一步又产生另一种想法: 把多种芯片的电路集成在一个大圆片上,从而又导致了封装由单个小芯片级转向硅圆片级(w a f erlevel)封装的变革,由此引出系统级芯片S O C (S y s t e m O n C h i p)和电脑级芯片P C O C (P C O n C h i p)。
相信随着CPU 和其他ULSI 电路的不断进步,集成电路的封装形式也将有相应的发展,而封装形式的进步又将反过来促成芯片技术向前发展。
第三节 CPU 的相关指标
在深入了解了C PU 的架构和生产过程后,接下来我们看看C PU 的工作原理和相关指标。
CPU 的工作原理简单地说就像是一个工厂对产品的加工过程:进入工厂的原料(指令),经过物资分 配部门(控制单元)的调度分配,被送往生产线(逻辑运算单元),生产出成品(处理后的数据)后,再 存储在仓库(存储器)中,最后等着拿到市场上去卖(交由应用程序使用)。了解了这样一种工作原理, 性能指标对C PU 的影响自然也就显而易见了。
一、主频、倍频和外频
我们经常说“这款C PU 的频率是多少多少”,其实这个泛指的频率是指C PU 的主频,主频也就 是CPU 的时钟频率,英文全称叫做C P U C l o c k S p e ed,简单地说也就是CPU 运算时的工作频率 。一 般说来,主频越高,一个时钟周期里完成的指令数也越多,当然C PU 的速度也就越快了。由于各 种C PU 的内部结构不尽相同,所以并非时钟频率相同性能就一样。外频是系统总线的工作频率。倍 频则是指C PU 外频与主频相差的倍数。三者有十分密切的关系:主频=外频×倍频。
二、内存总线速度
内存总线速度的英文全称是M e m o r y -B u s S p e ed 。CPU 处理的数据都是由主存储器提供的,而主 存储器也就是我们平常所说的内存了。一般我们放在外存(磁盘或者各种存储介质)上面的资料都要通过内存,然后再进入C PU 进行处理,所以与内存之间的通道,也就是内存总线的速度对整个系统的 性能就显得尤为重要。由于内存和CPU 之间的运行速度或多或少会有差异,因此便出现了二级缓存, 来协调两者之间的差异。内存总线速度是指C PU 二级(L 2)高速缓存和内存之间的通信速度。
三、扩展总线速度
扩展总线速度的英文全称是E x p a n s i o n -B u s S p e ed 。扩展总线指的是微机系统的局部总线,如 VESA 或PCI 总线。平时用户打开电脑机箱时,总可以看见一些插槽般的东西,这些东西又叫做扩展槽,上面可以插显卡、声卡之类的功能模块,而扩展总线就是C PU 用以联系这些设备的桥梁。
四、工作电压
工作电压的英文全称是Supply Voltage,即CPU 正常工作所需的电压。早期CPU(286 ~486 时代)的 工作电压一般为5V,那是因为当时的制造工艺相对落后,以至于C PU 的发热量太大,弄得寿命减短。
随着C PU 的制造工艺与主频的提高,近年来各种C PU 的工作电压呈逐步下降的趋势,以解决发热过高的问题。
五、地址总线宽度
应当说地址总线宽度决定了C PU 可以访问的物理地址空间,换句话说就是C PU 到底能够使用多大 容量的内存。16 位的微机我们就不用说了,但是对于3 86 以上的微机系统,地址线的宽度为32 位, 最多可以直接访问4 0 9 6 M B (4 G B)的物理空间。
六、数据总线宽度
数据总线负责整个系统的数据流量的大小,而数据总线宽度则决定了CPU 与二级高速缓存、内存 以及输入/输出设备之间一次数据传输的信息量。
七、数学协处理器 
4 86 以前的CPU 没有内置数学协处理器,由于数学协处理器的主要功能就是负责浮点运算,因此 386 、286 和8088 等C PU 的浮点运算性能都相当落后,相信接触过3 86 的朋友都知道主板上可以另外加一个外置数学协处理器,其目的就是为了增强浮点运算的能力。4 86 以后的C PU 一般都内置了数学协处理器,功能也不再局限于增强浮点运算,含有内置数学协处理器的C PU,可以加快特定类型的 数值计算,某些需要进行复杂计算的软件系统,如高版本的A u t o C AD 就需要数学协处理器支持。
八、超标量
超标量是指在一个时钟周期内CPU 可以执行一条以上的指令。这在486 或者以前的CPU 上是很难想象的,只有P e n t i um 级以上C PU 才具有这种超标量结构。4 86 以下的C PU 属于低标量结构,即在这 类C PU 内执行一条指令至少需要一个或一个以上的时钟周期。
九、L1 高速缓存
L1 高速缓存也就是大家经常说到的一级高速缓存。C PU 内置高速缓存可以提高运行效率,这也是 486DX 比386DX-40 快的原因。内置的L1 高速缓存的容量和结构对C PU 的性能影响较大,容量越大,性能也相对会提高不少,这也正是一些公司力争加大L1 高速缓存容量的原因。不过高速缓冲存储器均由静态RAM 组成,结构较复杂,在CPU 管芯面积不能太大的情况下,L1 级高速缓存的容量不可能做得太大。
十、采用回写(Write Back)结构的高速缓存
采用回写结构的高速缓存对读和写操作均有效,速度较快 。而采用写通(Write-through)结构的高速缓存,仅对读操作有效。
十一、动态处理
动态处理是应用在高能奔腾处理器中的新技术,创造性地把3 项专为提高处理器对数据的操作效 率而设计的技术融合在一起。这3 项技术是多路分支预测、数据流量分析和猜测执行。动态处理并 不是简单执行一串指令,而是通过操作数据来提高处理器的工作效率。
1.多路分支预测
即通过几个分支对程序流向进行预测,采用多路分支预测算法后,处理器便可参与指令流向的跳转。它预测下一条指令在内存中位置的精确度可以达到惊人的9 0%以上。这是因为处理器在读取 指令时,还会在程序中寻找未来要执行的指令。这个技术可加速向处理器传送任务。
2.数据流量分析
抛开原程序的顺序,分析并重排指令,优化执行顺序。处理器读取经过解码的软件指令,判 断该指令能否处理或是否需与其他指令一道处理。然后,处理器再决定如何优化执行顺序以便高效 地处理和执行指令。
3.猜测执行
通过提前判读并执行有可能需要的程序指令的方式提高执行速度。当处理器执行指令时(每次5 条),采用的是“猜测执行”的方法。这样可使P e n t i u m Ⅱ处理器超级处理能力得到充分的发挥, 从而提升软件性能。
被处理的软件指令是建立在猜测分支基础之上,因此结果也就作为“预测结果”保留起来。一 旦其最终状态能被确定,指令便可返回到其正常顺序并保持永久的机器状态。
第四节 CPU 指令集
为了提高计算机在多媒体、3D 图形方面的处理和应用能力,与C PU 处理器相对应的,各种处理 器指令集应运而生,其中最著名的3 种便是I n t el 公司的MMX 、SSE 和AMD 的3 D N o w!指令集。
一、M MX 指令集
MMX(Multi Media eXtension,多媒体扩展指令集)指令集是Intel 公司于1 9 96 年推出的一项多 媒体指令增强技术。M MX 指令集中包括有57 条多媒体指令,通过这些指令可以一次处理多个数据, 在处理结果超过实际处理能力的时候也能进行正常处理 ,这样在软件的配合下,就可以得到更高的 性能。M MX 的益处在于,当时存在的操作系统不必为此而做出任何修改便可以轻松地执行M MX 程序。
但是,问题也比较明显,那就是M MX 指令集与x 87 浮点运算指令不能够同时执行,必须做密集 式的交错切换才可以正常执行,这种情况就势必造成整个系统运行质量的下降。
二、SSE 指令集
SSE(Streaming SIMD Extensions,单指令多数据流扩展)指令集是Intel 在Pentium Ⅲ处理器中率 先推出的。其实,早在P Ⅲ正式推出之前,Intel 公司就曾经通过各种渠道公布过所谓的KNI(Katmai New Instruction)指令集,这个指令集也就是SSE 指令集的最早名称,并一度被很多传媒称之为MMX 指 令集的下一个版本,即M M X2 指令集。究其背景,原来“K NI ”指令集是I n t el 公司最早为其下一代 芯片命名的指令集名称,而所谓的“M M X2 ”则完全是硬件评论家们和媒体凭感觉和印象对“KNI ”的 评价,I n t el 公司从未正式发布过关于M M X2 的消息。
而最终推出的SSE 指令集也就是所谓胜出的“互联网S SE ”指令集。S SE 指令集包括了70 条指令, 其中包含提高3D 图形运算效率的50 条SIMD(单指令多数据技术)浮点运算指令、12 条MMX 整数运算增强指令、8 条优化内存中连续数据块传输指令。
理论上这些指令对目前流行的图像处理、浮点运算、3D 运算、视频处理、音频处理等诸多多媒 体应用起到全面强化的作用。S SE 指令与3 D N o w!指令彼此互不兼容,但SSE 包含了3 D N o w!技术的绝大部分功能,只是实现的方法不同。SSE 兼容M MX 指令,它可以通过SIMD 和单时钟周期并行处理多个浮点数据来有效地提高浮点运算速度。
三、3D Now !指令集
由AMD 公司提出的3DNow!指令集应该说出现在SSE 指令集之前,并被AMD 广泛应用于其K6-2 、K6- 3 以及A t h l o n (K 7)处理器上。3DNow!指令集技术其实就是21 条机器码的扩展指令集。
与Intel 公司的M MX 技术侧重于整数运算有所不同,3DNow!指令集主要针对三维建模、坐标变换 和效果渲染等三维应用场合,在软件的配合下,可以大幅度提高3D 处理性能。
第五节 当前CPU 的技术特点
一、制造工艺——更细的线宽
近两年来主流CPU 最显著的技术特征之一就是CPU 制造工艺的进步。早期的C PU 处理器采用的大多是0.5 微米制造工艺。随着CPU 频率的提高,0.35 微米及曾经普遍使用的0.25 微米工艺成为C PU 市场的主流。从P Ⅲ C o p p e r m i n e(铜矿)处理器开始,采用0.18 微米制造工艺的C PU 开始出现。由 于采用了更精细的工艺,使得原有晶体管门电路更大限度地缩小,因此在同样的面积内可以集成更 多的晶体管。晶体管越做越小,能耗自然也就随之降低,C PU 也可以更省电。
另一方面,传统的芯片内部大多使用铝作为导体,由于芯片速度不断提高,面积不断缩小,铝 线的性能极限已达临界,在这种情况下,铜导线技术初显端倪。铜导线技术与铝导线技术相比,优 势在于导电性能更佳,发热量更小,可以有效提高C PU 芯片的稳定性。在0 .18 微米制造工艺之后, 采用0.13 微米制造工艺的CPU 也即将上市,更快的处理器频率必将推进铜导线技术全面取代铝导线技术。
二、封装方式——Socket 架构是主流
S E C C2 封装、F C -P GA 封装、BGA 封装;S l o t A 、S o c k e t 3 70 、S o c k e t 4 62 ……现在,如果您 有一段时间不关注IT 媒体或者隔两个月再去一趟配件市场,您必定会惊奇地发现,CPU 又变了。以 市场上最常见的S o c k et 系列为例,主流的F C -P GA 封装对应的自然是S o c k e t 3 70 接口,这种插脚接 口是一种方形的多针角零插拔力插座,插座上有一根拉杆,在安装和更换C PU 时只要将拉杆向上拉 出,就可以轻易地插进或取出CPU 芯片了。在S o c k e t 3 70 插座上可以安装最新的P Ⅲ C o p p e r m i ne 处理器、C e l e r on 系列处理器和VIA 的C y r i x Ⅲ处理器等。
再来看看Slot 系列的Slot 1 和Slot A 。Slot 1 接口方式是由Intel 公司最早提出来的一种狭长 的242 引脚插槽,可以支持采用SEC(单边接触)封装技术的早期Pentium Ⅱ、Pentium Ⅲ和Celeron 处理器。除了接口方式不同外,S l o t 1 所支持的特性与S u p e r 7 系统没有太大的差别。S l o t A 接 口标准则是由A MD 提出的,支持AMD 的K7 处理器。虽然从外观上看S l o t A 与S l o t 1 十分相像,但 是由于它们的电气性能不同,两者并不兼容。
进入2 0 00 年,随着A t h l on 将自己的L 2 C a c he 放入Die(芯片内核),Socket 接口的A t h l on 出 现也成为可能,于是伴着A M D T h u n d e r b i r d(雷鸟)处理器的诞生,S o c k e t A(也称S o c k e t 4 6 2)封装随之出现。S o c k e t A 接口的大小与S o c k e t 7 和S o c k e t 3 70 类似,但其接口在整体的布局 中缺了一些针脚,这就是为了防止在将S o c k e t 3 70 处理器插入插槽时发生意外的错误。但并不 是所有的T h u n d e r b i r d(雷鸟)处理器都是S o c k e t A 封装,为了支持其O EM 的S l o t A 系统设计, 市场上S l o t A 封装的T h u n d e r b i rd 和S o c k e t A 的雷鸟都可以见到,这也是让普通消费者在选择 时极易产生误会的地方。封装方式的改变表面上看只是外形上的变化,其实不然,技术、成本 和消费者最关心的最终价格与C PU 的封装方式可以说是密不可分的,因此大家在关注C PU 性能的同 时,千万不要忽视了C PU 的封装技术。
三、缓存——全速L2 Cache
缓存就是指可以进行高速数据交换的存储器,它先于内存与C PU 交换数据,因此速度极快,所 以又称为高速缓存。与处理器相关的缓存一般分为两种:L1 Cache(片内缓存)和L2 Cache(二级缓存)。
Pentium 时代的处理器把L1 Cache 集成在CPU 内部,而L2 Cache 则做在主板上以与C PU 外频相同的频率工作。到了S l o t 1 时代,P e n t i u m Ⅱ处理器的缓存封装方式与旧的S o c k e t 7 架构完全不同, L 2 C a c he 开始做到了处理器上,并以处理器速度一半的频率工作,这便是I n t el 引以为荣的双独立 总线结构。在这种结构中,一条总线联接L2 高速缓存,另一条负责系统内存,这样便使整个系统的速度得到了很大的提高。
后来AMD 在其S u p e r 7 平台的最后一款产品K6-3 中首次使用了三级缓存技术,它包括一个全速 6 4 K B L 1 C a c he,一个内部全速256KB L2 Cache,还有主板上运行在100MHz 频率下的L 3 C a c he 。
这种三级缓存技术使得K6-3 的性能有很大提高,与同频的Pentium Ⅱ相比,其速度也要略快一筹。 而在新一代CPU 技术中,缓存技术得到了更进一步的发展,如A M D D u r o n(钻龙,俗称毒龙)处理器 的L2 Cache 已为6 4 KB,L1 Cache 高达1 2 8 KB,高端的Thunderbird(雷鸟)处理器更是达到了128KBL1 Cache 和256KB L2 Cache 的高速缓存。从理论上讲, L2 Cache 全内置并与处理器同频工作是大势所趋,而这 也正是决定C PU 处理器性能的一个关键环节所在。
四、指令集——M M X 、S S E 和3DNow !唱主角
2000 年的主流CPU 产品似乎更关注于在硬件技术上的 推陈出新,并没有在C PU 指令集方面出更多的新招。应 用最广泛的仍然是Intel 的MMX 、SSE 和AMD 的3DNow!指令集,并且将继续向前发展。而V IA 的 Cyrix Ⅲ处理器则同时支持Intel 的M MX 和AMD 的3DNow!多媒体指令集。
第六节 新款CPU 介绍
一、I ntel 公司的新款C P U
1 .P Ⅲ C o p p e r m i n e(铜矿)处理器
2000 年最惹人注目的莫过于Intel 公司采用0.18 微米工艺生产的P Ⅲ Coppermine 处理器了。尽 管Intel 公司早在1 9 99 年10 月25 日便发布了这款代号为Coppermine 的Pentium Ⅲ处理器,但其真 正的普及是在2 0 00 年。
虽然取名为“铜矿”,C o p p e r m i ne 处理器并没有采用新的铜芯片技术制造。从外形上分析, 采用0.18 μm 工艺制造的Coppermine 芯片的内核尺寸进一步缩小,虽然内部集成了256KB 的全速On- D i e L 2 C a c he,内建2 8 10 万个晶体管,但其尺寸却只有1 0 6 mm 2 。从类型上分析,新一代的 C o p p e r m i ne 处理器可以分为E 和EB 两个系列。E 系列的C o p p e r m i ne 处理器采用了0 .18 μm 工艺制 造,同时应用了I n t el 公司新一代O n -D ie 全速2 5 6 K B L 2 C a c h e;而EB 系列的C o p p e r m i ne 不仅集合 了0.18 μm 制造工艺、O n -D ie 全速2 5 6 K B L 2 C a c he,同时还具有1 3 3 M Hz 的外频速率。
从技术的角度分析,新一代C o p p e r m i ne 处理器具有两大特点:一是封装形式的变化。除了部分产品采用S E C C2 封装之外,I n t el 也推出了F C -P GA 封装及笔记本使用的MicroPGA 和B GA 封装;二 是制造工艺的变化。C o p p e r m i ne 处理器全部采用了0.18 μm 制造工艺,其核心工作电压降到了1. 6 5 V (S E C C 2)和1 .6 V (F C -P G A),与传统的P Ⅲ相比大大降低了电能的消耗和发热量。
P Ⅲ C o p p e r m i ne 的整体性能与传统的P Ⅲ相比有了较大幅度的提高。作为新一代处理器, Coppermine 强劲的高速On-Die L2 Cache 值得称道,而且P Ⅲ Coppermine 的可超频性也是非常出色的。
2 .P Ⅲ C o p p e r m i n e -T 和T u a l a t in
2001 年末,P Ⅲ Coppermine 会进一步改进制造工艺采用0.13 微 米制造,新版本T u a l a t in 也即将问世。其核心技术大致如下:最 初时钟频率应该是1 .1 3 /1 .2 6 G Hz;内核集成512KB 二级缓存;采用 新的总线结构;封装结构上采用F C P G A2 替换F C P GA 。
我们注意到Tualatin 在电压和总线规格上和过去的P Ⅲ处理器有 了不同,因此未来似乎应该有全新的平台来支持P Ⅲ处理器 。当前 只有一款芯片组宣布支持Tualatin,它就是A l m a d or 或者被称之为 i 8 30 。
而P Ⅲ Coppermine-T 内核则可能是过渡产品,它既能运行于当前 的i815 、694X 等产品,相信也能在A l m a d or 平台上使用。从时间表上看这两款处理器都在2 0 01 年三季度发布。但由于Intel Pentium 4 战略的延展,也许它们会悄无 声息地来临,甚至缩减至一款。
3 .C e l e r o n Ⅱ处理器
为了进一步扩大在低端市场的占领份额,2 0 00 年3 月 Intel 终于发布了其代号为“C o p p e r m i n e 1 28 ”的新一代的 Celeron 处理器——Celeron Ⅱ(Intel 仍称其为Celeron,但 为了和前面的C e l e r on 区分,我们暂且这样称呼)。C e l e r on Ⅱ与老Celeron 最显著的区别在于采用了与P Ⅲ Coppermine 相同的核心及同样的FC-PGA 封装方式,同时支持S SE 多媒体 扩展指令集。
从技术角度分析,C e l e r o n Ⅱ与P Ⅲ C o p p e r m i ne 有着 诸多明显的区别:一是Celeron Ⅱ的L2 Cache 容量只是P ⅢC o p p e r m i ne 处理器的一半,并且缩减P Ⅲ C o p p e r m i ne 的8 路缓存通道为4 路,延迟时间也由P Ⅲ Coppermine 的0 变成了2 。由此不难看出,相同主频的Celeron Ⅱ在性能方面比P Ⅲ Coppermine 要 差很多;二是功耗方面。C e l e r o n Ⅱ的核心电压只有1 .5 V(最新款有1 .7 V),而P Ⅲ C o p p e r m i ne 的 核心电压为1.65V,功耗相对较低;三是外频方面。Celeron Ⅱ出人意料地沿用了古老的66MHz 外频,面对低端市场早已使用100MHz 外频的AMD K6-2,Intel 此举除了商业行为的理由外恐怕无法解释。而66MHz 外 频的Celeron Ⅱ与100MHz 外频的P Ⅲ Coppermine 相比, 也就注定了其要在性能方面牺牲更多。C e l e r on 系列向 来有着如奔腾系列一样优秀的浮点运算性能,C e l e r on Ⅱ集成的全速缓存使得其整数性能也得以大幅度提高。 但是,糟糕的66MHz 外频可能会是Celeron Ⅱ最终不敌 A MD 同型产品的致命之处,不过如果将其与老C e l e r on 放在一起,其实还是我们要求太高了。与C o p p e r m i ne 同样的FC-PGA 封装方式必定会使Celeron Ⅱ的兼容性有 所提高。正是由于高性能的二级缓存和低功耗, C e l e r o n Ⅱ同样也具有良好的超频性能。
4 .P e n t i u m 4 处理器
美国东部时间2 0 00 年6 月28 日,I n t el 公司正式宣布将该公司开发的下一代微处理器命名为Pentium4 。新一代的P e n t i u m 4 处理器即原先研发代号为W i l l a m e t te 的W i l ly 芯片,是I n t el 公 司继C o p p e r m i ne 处理器之后推出的面向普通用户的主流产品。
2 000 年11 月20 日,I n t el 公司正式发布P e n t i u m 4 处理器。该处理器采用了不同于P6 总线的全新N e t B u r st 架构,其管线长度是P6 架构的两倍,达到了20 级。这将使P e n t i u m 4 达到更高时钟 频率。现在的P e n t i u m Ⅲ处理器由于管线长度的限制,最高时钟频率在1.2GHz 左右,P e n t i u m Ⅲ1 .1 3 G Hz 处理器出现的问题就是最好的证明。不过,管 线长度的加长,也意味着entium 4 每一个时钟周期执 行的指令要比P e n t i u m Ⅲ少,这就是为什么在相同的 速度下,P e n t i u m Ⅲ或Athlon 处理器的性能看起来要 比P e n t i u m 4 处理器更强一些的原因。不过,随着 P e n t i u m 4 速度的提升,这一现象会逐渐消失。
Pentium 4 处理器采用新的系统总线代替了原有的 GTL+总线,总线速度达到400MHz 。最初版本的核心频 率为1 .4 G Hz 和1.5GHz,内部集成了8 KB 一级数据缓存 和2 5 6 KB 同速二级缓存(I n t el 称之为L2 超级传输缓 存),带宽大于44.8GB/s,大大超过Pentium Ⅲ 1GHz 处理器的1 6 G B /s 。初期的P e n t i u m 4 采用0 .18 μm 工艺制造,包含4 2 00 万个晶体管,芯片面积为2 1 7 mm 2 ,核心电压为1 .7V,目前采用S o c k e t 4 23 接 口,此外I n t el 还推出了一款S o c k e t 4 78 接口的P e n t i u m 4,这才是最终版本。P e n t i u m 4 的算术 逻辑单元(A L U)以核心频率的两倍运行。此外,P e n t i u m 4 还包含1 44 条重新设计过的S S E2 指令。 Intel 预计P e n t i u m 4 将于2001 年下半年占其C PU总产量的一半,并采用0.13 μm 铜工艺制造。 Pentium 4 的架构被I n t el 称之为N e t B u r st 。其中最容易被关注到的变化就是它的新系统总线。
虽然真实时钟频率只有100MHz,位宽还是64 位,但由于利用了与APG 4x 相同的工作原理,它的速 度实际相当于4 0 0 M Hz 是传统P6 总线的四倍,可传输高达3.2GB/s 。明显超过AMD Thunderbird 处理器266MHz(133MHz ×2)2.1GB/s 的数据传输率。
Pentium 4 的二级缓存与Pentium Ⅲ的二级缓存大小相同,都是256KB 并皆为8 路联合方式运作。 但Pentium 4 的二级缓存每线为128 字节,并分成2 个等量的64 字节。当它从系统(无论是内存、AGP 显卡或是P CI 等)取出数据时,都是以64 字节为单位,这样一来确保批量传输的最大性能。
一级缓存方面,P e n t i u m 4 仅有8 KB 的一级数据缓存,没有指令缓存 ,这样便于降低一级的延迟,采用4 路联合方式,并使用64 字节的缓存管道。双端口结构使得能在一个时钟内,一个读取 而另一个写回的方式来同时运作。过去在P e n t i u m Ⅲ或A t h l on 处理器中,都有一级指令缓存。代 码会先被放入此块缓存中,直到要真正被处理单元执行时才会取出。糟糕的是某些x 86 指令非常复杂,因此解码过程可能会阻塞整个执行管道,同时这些指令中的部分重复频率很高,常常刚解码一 次后又需要再次解码。基本上讲,P e n t i u m 4 的执行追踪缓存就是在解码器底下的的一级指令缓存, 如果缓存里存放有已经解码过的复杂指令,下一次它进入流水线时就不需要再解码,而只直接提取 微指令即可。
另外Pentium 4 新加有硬件预取的机制。这块新的处理单元可辨认Pentium 4 核心执行软件的数 据存取样本,并依此猜测下次会被处理的数据,然后将这些数据预先载入缓存中。在应用大量的有 规则数据情况下比如矩阵,P e n t i u m 4 的硬件预取功能将大幅加速执行效能。
还有Pentium 4 最有名的特性之一就是该处理器具有非常长的流水线工位。Pentium Ⅲ的流水线 工位有10 个,A t h l on 为11 个,而P e n t i u m 4 不少于20 个。如此多的工位数量保证了每个工位执行的任务足够简单,很显然Pentuim4 已经做好了足够的准备向更高的GHz 频率进军,这显然是Pentium Ⅲ和Athlon 所不具备的,也是他们注定无法在更高频率上和P e n t i u m 4 抗衡的致命伤。
Pentium 4 的流水线能保留多达126 个将要被执行指令,其中最多可包含48 个载入及24 个存储运 算。而追踪缓存分支预测单元,就是用来确保清空整个管道内容的情况不会经常发生的。I n t el 声称 用了这个单元后,可减少P e n t i u m Ⅲ 3 3%的预测失败。但一旦发生预测失败,所带来的损失也相 当惊人。
其余的新特性包括两组双速ALU 及AGU 。因为他 们可以每半时钟内处理一个微指令,因此四个中的 每一个时钟皆为处理器时钟的两倍。快速执行引擎 无法处理的指令,将被送到唯一的S l o w A LU 处处 理。不过好在程序指令绝大部分都是一些简单的指 令。加入流式单指令多数据扩展技术的第二版棗 SSE2 。这一次新开发的SIMD 指令了包括浮点S I MD 指令、整形S I MD 指令、S I MD 浮点和整形数据之间 转换以及数据在XMM 寄存器和MMX 寄存器中转换等几 大部分。其中重要的改进包括引入新的数据格式, 比如128 位SIMD 整数运算和64 位双精度浮点运算等 等。为了更好的利用C a c he,P4 还另外增加了几条 操作缓存的指令,允许程序员控制已经缓存过的数 据。由于SSE2 更多是在架构内部的加强和优化,其 最大好处是并不需要因此而开发全新的操作系统, 只要稍微打个补丁之类,就能享受到SSE2 带来的好 处。
Intel 公司于2001 年8 月底发布的1.9 和2.0GHz 的Pentium 4 仍然采用0.18 微米的Willamette 内 核。我们曾经很希望看到此次发表的S o c k e t 4 78 接口P e n t i u m 4 采用代号为N o r t h w o od 的新核心。
不过,I n t el 可能在0 .13 微米制程上碰到了一些麻烦。
5 .I t a n i um 处理器
大多数熟悉计算机的爱好者一定都听过M e r c ed 这个名字,现在I n t el 已经正式把它命名为Itanium 。这将是Intel 第一款执行IA-64 指令的微处理器。它采用了EPIC(Explicitly Parallel Ins t r u c t i o n C o de,显性并行指令计算)技术,可实现每时钟周期高达20 次运算。I t a n i um 有128 个 整数和多媒体寄存器,1 28 个82 位浮点寄存器,64 个论断寄存器,8 个分支寄存器。这么多的寄存器允许Intel 整合动态寄存器堆栈引擎,这将大大提高处理能力。第一代IA-64 的处理器通过它们的浮点单元可每秒执行60 亿次浮点操作。
(1)Itanium 的主要物理参数
该处理器具有3 级高速缓存,包括2 MB 或4 MB 三级高速缓存、9 6 KB 二级高速缓存和3 2 KB 一级高速缓存,缩短了内存等待时间。
首批产品采用733MHz 和800MHz 主频。
2 2 6 6 M Hz 数据总线,以2 .1 G B /s 带宽支持快速系统总线处理。
“机器检查体系结构”(M C A)、完善的错误记录、高速缓存和系统总线纠错码(E C C)设计提供
了先进的错误检测、纠正和处理能力。
64 位数据总线(以及8 位E C C)。
3 英寸×5 英寸插盒,包括安腾处理器和高达4 MB 的盒上3 级高速缓存。
专用的边缘电源接头为处理器和高速缓存设备提供单独电压,从而提高信号的完整性。
硬件内建I A -32 指令二进制兼容性。
C C PU 中晶体管数量为2 5 00 万个,高速缓存中有3 亿个。
(2)Itanium 的主要性能指标
一体化的2 MB 或4 MB 盒上三级高速缓存。以处理器主频全速运行,采用4 路成组相联设计和 64 字节高速缓存线。采用全面的流水线和优化设计,使用1 28 位宽高速缓存总线以12.8GB/s 带宽实 现快速数据访问。
一体化的9 6 KB 二级高速缓存,6 路成组相联结构,采用全面的流水线设计和64 位高速缓存 线。
一级高速缓存为3 2 KB,数据高速缓存与指令高速缓存分开(1 6 KB 数据/1 6 KB 指令)。4 路成组
相联结构,采用全面的流水线设计和32 字节高速缓存线。
高度并行的流水线硬件,10 级流水线。
两个整数单元和两个内存单元,每时钟周期能够执行4 条A LU 指令。
浮点(FP)计算单元包含两个以82 位运算数运行的FMAC(浮点相乘累积)单元。每个FMAC 单元每 时钟周期能够执行两次浮点运算,支持单精度、双精度和扩展双精度。
两个额外的FP 多媒体单元,每个单元能够执行两条单精度FP 运算。与常规的F M AC 相结合, 每时钟周期能够执行8 次单精度FP 运算,最高结果可达6 .4 G F L O PS 。
44 位物理内存寻址能力。
集成的系统管理特性,提供温度监测和插盒识别信息。
先进的载入地址表(A L A T),包括32 个条目,采用2 路成组相联高速缓存设计,支持推测执
行,最小的内存等待时间和更高性能。
两层数据转换后备缓冲器(D T L B)——在D T L B 1(全部相关联)中有32 个条目;在DTLB2 中有96
个条目。另外,系统软件(O S)可以单独使用48 个转换寄存器(T R),存储关键的虚拟到物理地址转
换。
指令转换后备缓冲器(I T L B)包含64 个条目,并且相互之间完全相关。
“显性并行指令集计算”(E P I C)技术,通过最大限度地发挥硬件和软件的协同作用,提高了 指令级并行运算能力。Itanium 体系结构为编译器提供了多种机制,用于与处理器交流编译器时间信 息,如分支和高速缓存提示。此外,这种体系结构使编译代码能够通过创新的指令格式来更有效地 管理处理器硬件。这些交流机制能够最大限度地减少分支损耗,减少高速缓存未命中的次数,同时 实现更强的并行运算能力,而这一点要比代码中固有的并行运算能力显著得多。
推测:使编译器在进行分支和存储之前提前安排载入指令,以缩短内存等待时间,进而实现 更高性能。
预测:通过消除分支和分支预测错误造成的相关损耗来提高性能。
并行运算:使编译器能够为处理器提供更多信息,确保处理器能够持续并行执行多项运算,进 而提供更高的性能和可扩展性。
寄存器堆栈:利用由寄存器堆栈引擎(RSE)管理的灵活的整数 寄存器模型来减少呼叫/返回程序开销。
寄存器循环:在硬件中自动为寄存器重命名,以提高软件循环性能 ,不需要满足传统方式中的额外要求。
分支/存储提示:提高分支预测率并缩短内存等待时间。
SIMD 指令集:通过使每条指令在多个整数运算数或浮点运算 数上执行而显著地提高了多媒体应用的性能。
海量寄存器资源:1 28 个整数寄存器,1 28 个浮点寄存器,8个分支寄存器和64 个分支预测寄存器。
增强的延迟事务处理能力,提高总线效率。  
增强版低电压AGTL+(AdvancedGunningTransceiverLogic)信 号技术。 
当然 ,这款全新的CPU 也有缺点,由于它对I A -64 的关注,使得它在当前的I A -32 架构上表现 欠佳。我们不知道市场对这种抛弃过去来换取性能的做法到底能承受到什么程度但一开始,支持 它的软件一定很少,而且售价昂贵,主流市场不可能有它的容身之处,只有高端工作站和服务器市 场才是它适合待的地方。
二、AM D 公司的新款C P U
1 .D u r on 处理器
D u r on 的研发代号为S p i t f i r e(烈火),其中文名字叫钻龙。D u r on 一词源于拉丁语“durare ”,意思是“长久”,再加上后缀“-on ”,显然A MD 选择 Duron 作为处理器的名字是因为希望它能为用户的投资价值 延长寿命。当Athlon 终于在高端C PU 领域把I n t el 重重打了一拳后,2000 年4 月27 日,AMD 宣布正式推出D u r on 作 为其新款廉价处理器的商标,并以此准备在低端市场向 I n t el 发起更大的冲击。 
Duron 处理器采用了ThunderBird(雷鸟)处理器的核心, 0.18 μm 铝工艺制造,集成有全速的1 2 8 KB 一级缓存,采 用Socket A 架构并支持200MHz 的前端总线频率,具有增强 了的3DNow!多媒体技术。Duron 处理器的晶体管数目为2500万个,工作电压和电流分别为1 .6 5V 和2 5A 。总功耗为 4 1W,是C e l e r o n Ⅱ 600MHz 处理器的两倍多,因此发 热量较大。正式上市的D u r on 起始主频为600MHz 。目前 已经发布了6 0 0 M Hz 、6 5 0 M Hz 、7 0 0 M Hz 和8 0 0 M Hz 等几种 型号,稍后还会有更高主频的型号上市。由于D u r on 全 部采用A M D T h u n d e r B i r d(雷鸟)处理器的核心,因此具 有全面优于K6 系列的卓越性能,能耗较之原来的K6 系列 大幅降低,三通道的浮点运算处理能力使一直让A MD 倍 感头痛的浮点运算问题得以解决。  
从技术角度分析,A M D D u r on 处理器与I n t elC e l e r o n Ⅱ处理器有许多类似之处,但也有着极大的不同。相同的是,这两款低价位的处理器都针 对于需要廉价电脑的商业和家庭用户,而且技术应用也十分相似,都是采用0 .18 μm 的制造工艺, 将全速L2 Cache 集成在Die(CPU 内核)中。不同的是,Duron 处理器的L2 Cache 为64KB,而Celeron Ⅱ则为128KB 。Duron 处理器采用的是ThunderBird(雷鸟)处理器的核心,其L1 Cache 为1 2 8 KB,外 频为100MHz,而Celeron Ⅱ采用的是Coppermine 核心,而且其L1 Cache 为3 2 KB,外频仅为66MHz 。
众所周知,CPU 的二级缓存和内存之间的数据传输率始终是系统运行的瓶颈所在。Duron 内置的128KB一级缓存从数量上已经是Celeron Ⅱ的4 倍,这样在平时工作中就允许有足够多的数据存放在一级缓存中,一级缓存的命中率提高了,二级缓存的瓶颈就可以得到有效遏制。从这一点上分析,尽管 Duron 只有64KB 的全速二级缓存,但其性能表现已超过具备1 2 8 KB 全速二级缓存的C e l e r o n Ⅱ。
由于D u r on 与C e l e r o n Ⅱ一样也引入了0 .18 μm 的铝工艺技术制造,能耗降低的好处自然就是 超频性能的提升。
2 .T h u n d e r b i rd 处理器
新款的Thunderbird(雷鸟)处理器和P Ⅲ Coppermine 处理器相比有以下几点区别:首先,在缓存 系统构架方面,Thunderbird 处理器采用的是外置缓存构架,而I n t el 公司一贯采用的是内置缓存构 架。基于内置缓存系统的P Ⅲ Coppermine 处理器在正常工作时,其存储在L1 Cache 中所有的数据都 被复制到L2 Cache 中。
基于外置缓存的Thunderbird 处理器则恰好与内置缓存运作相反,其在工作时不是将L1 Cache 中 的数据复制到L2 Cache 中,L2 Cache 中只是包含了将要写回内存子系统的备份缓存模块。因此,A MD 一直强调其Thunderbird 处理器核心采用了384KB 片内缓存,因为如果Thunderbird 处理器内建了128KB 的L1 Cache 后再加上容量为L1 Cache 一倍的高达256KB 的L2 Cache,累计起来正好384KB 。
其次,虽然Thunderbird 处理器仍采用64 位数据通道,但这种64 位的数据通道比P Ⅲ Coppermine 处理器所采用的256 位数据通道窄得多,而这相差3 /4 的二级缓存数据带宽势必会妨碍Thunderbird 处 理器较之P Ⅲ Coppermine 有更佳的性能表现。第三,Thunderbird 处理器和P Ⅲ Coppermine 处理器 的二级缓存还有一个不同之处在于,T h u n d e r b i rd 处理器内置了16 通道的二级缓存访问,而P Ⅲ Coppermine 处理器仅设置有8 通道二级缓存访问。显而易见,拥有16 通道相对L2 Cache 的Thunderbird
处理器比只带有8 通道相对L2 Cache 的P Ⅲ Coppermine 处理器有着更高的数据命中率。
3 .P a l o m i no 和M o r g a n(摩根马)
Palomino 处理器是AMD 对Intel Pentium 4 处理器的回应,而且很有意思的是发布的时候它居然 被叫做了Athlon 4,此前并无Athlon 2 或Athlon 3 的说法。从设计规划上看它有能力威胁到Intel Pentium Ⅲ处理器的市场份额。这款芯片拥有512KB 全速二级缓存;起始工作频率大约在1 .5 G Hz 上 下;芯片组采用A M D 7 60 、A M D 7 6 0 MP 、V I A K X 2 66 和V I A K T 1 33 。
Morgan 是用来替换AMD Duron 处理器的。这样的升级可以保证A MD 在一个时候只制造一种处理器核心,而不是高端已经升级,低端却仍然保留在过去的水平上,从而降低成本。M o r g an 的关键技 术特征有:64KB 或128KB 全速二级缓存;起始时钟频率900MHz;芯片组:VIA KM133 、KL-133 、SiS 730S 。 这款处理器被期望在2001 年3 季度转而采用0.13 微米的技术加以制造。(AMD 可能会和IBM 有某种 方式的合作,来提升生产力)。这种转换将有助于降低电力消耗和增加核心的时钟速度。
4 .T h o r o u g h b r ed 、A p p a l o o sa 和B a r t on
2 0 01 年年底之前,AMD 将把其第七代处理器过渡到更小、更先进的0.13 微米制作工艺。第一块 0 .13 微米芯片将是P a l o m i no 继承者,代号“T h o r o u g h b r ed ”。目前,A MD 还没有透露有关T h o r- o u g h b r ed 的更多信息。据我们所知,A MD 预计在年底开始限量供货,到2 0 02 年上半年全线生产 Thoroughbred 。既然AMD 以前把2002 年初的奋斗目标定在2GHz,我们就有理由相信Thoroughbred 将 是2GHz 的产品。而M o r g an 的继承者是“A p p a l o o sa ”,AMD 计划以这种0.13 微米的处理器进军经济 型市场。AMD 的规划显示,A p p a l o o sa 将比T h o r o u g h b r ed 稍微晚一点点发布。
A MD 处理器未来的规划中还包括了一个新的面向高性能市场的速龙核心,代号“B a r t on ”。和 Thoroughbred 一样,有关B a r t on 的信息AMD 说得含糊不清,惟一知道的一点是它将运用从IBM 获得许可的SOI(Silicon-On-Insulator)技术。Barton 将在2 0 02 年下半年某个时候推出,届时,AMD 还计划推出它的第一个64 位处理器“H a m m er ”。
5 .K8 
代码为“SledgeHammer ”(大锤)的K8 处理器是AMD 与Intel Pentium 4 竞争的下一代技术产品。从AMD 已经公布的资料分析,K8 处理器将不再采用全新的64 位设计,而是重新回到x86-64 的轨道上来(即增强型的x 8 6 -3 2),以便与现有的32 位和16 位程序兼容。K8 就是这种设计下的第一款成品。
新一代的K8 芯片尺寸将会进一步缩小,达到1 1 0 mm 2 ,同时可以在一个内核中集成两个处理器并 使之并行工作。K8 处理器将不再采用E V6 总线结构,而是全新的LDT(Lightning Data Transport, 闪电数据传输总线)。它能提供高达6 .4 G B /s 的数据传输率,并且兼容当今的外围设备和输入/输出 装置。AMD 也在开发适用于此总线的API(Application Programming Interfaces,应用程序接口)和插拔接口。第一颗K8 将使用与摩托罗拉共同开发的0 .18 微米铜线互连技术制造, 初始速度为1 G Hz,2 0 01 年正式上市。A MD 如果能成功开发出K8,势必会如愿以偿地 成为x 86 体系的领导者。
三、其他厂商的新款C P U
1 .V IA 的C y r i x Ⅲ处理器 C y r ix 曾经是一家相当有实力的处理 器设计公司。早在486 时代,C y r ix 便红 极一时,甚至俨然已经可以和当时的 I n t el 分庭抗礼。C y r ix 所设计的5 x 6120MHz 处理器是一款比奔腾75 还要快的4 86 级处理器,推翻了下一代处理器总比上一代处理器要快的结论,不仅创造了一个奇迹,也延长了4 86 处理器的生命。不过进入5 86 时代后C y r ix 公司便 开始下滑,连年亏损最终被V I A(威盛)收购。而586 时代的另一个C PU 厂商I DT 也因为经营困难而 被V IA 收购。C y r i x Ⅲ便是威盛收购C y r ix 和I DT 之后开发的。
Cyrix Ⅲ原名Joshua(约书亚),定位于低端市场,锋芒直指I n t el 的C e l e r on 处理器。但 Joshua 没有上市,后来VIA 将IDT 的WinChip4 重 新命名为C y r i x Ⅲ,这就是S a m u el 。与前一款 产品不同的是,新款Cyrix Ⅲ的芯片面积大幅度 缩小,内核电压也降为1 .8V,一级缓存为 128KB,但没有二级缓存。由于Cyrix Ⅲ内置了 MMX 和3DNow!指令,因此在多媒体领域应该还是 具有一定实力的。早在处理器面市之前,VIA 便声称Cyrix Ⅲ将是抢夺Celeron Ⅱ处理器市场份额的利器。首先,Cyrix Ⅲ的外频可以支持66MHz 、 1 0 0 M Hz 甚至133MHz,而且为了改变C y r i x Ⅲ处理器天生浮点运算能力较差的弱点,新款C y r i x Ⅲ提供了两个80 位的浮点处理单元。其次,C y r i x Ⅲ与 Celeron Ⅱ处理器一样采用了Socket 370 接口,可以兼 容C e l e r o n Ⅱ处理器所使用的芯片组。第三,C y r i x Ⅲ 处理器较之C e l e r o n Ⅱ还有一点优势,那就是C y r i x Ⅲ 可以同时支持Intel 的MMX 和AMD 的3DNow!多媒体指令集。 但一些权威媒体的测试表明,由于没有了二级缓存,新 款C y r i x Ⅲ的性能大打折扣,综合性能赶不上同频的 C e l e r o n Ⅱ。
2 .V I A C3 2 0 01 年5 月25 日,V IA 在CeBIT 2001 上发布新的C3
36处理器,采用标准的Socket 370 接口,起始频率为7 3 3 M Hz 。该处理器采用0.15 微米工艺制造,核 心面积只有5 2 mm 2 ,内部集成了1 2 8 KB 全速一级缓存,6 4 KB 二级缓存。支持1 3 3 M Hz 前端总线频率、 3 D N ow!和MMX 多媒体指令集。
另外VIA 的整合型处理器M a t t h ew 的计划依旧,并没有受到Intel Timna 夭折的影响。这颗内建S a m u e l 2 核心、A p o l l o P r o 1 3 3A 、S3 Savage4 、音效、网卡、M o d em,采用0 .18 微米制程的处 理器,是V IA 进军低价笔记本电脑的有力武器。
3 .C r u s oe
2 0 00 年1 月16 日,一家在业界很不出名的公司T r a n s m e ta 突然宣布了他们自行研发的处理器Crusoe 。一石激起千层浪,惹得I n t el 、AMD 两家自以为世上无人再有能力生产便携机CPU 的厂商大 跌眼镜。Crusoe 是一款应用于笔记本电脑和Internet 网络设备的新型处理器。Crusoe 芯片的开发者Transmeta 公司在芯片研发过程中采用了一种革命性的微处理器设计方案。与主流的x86 处理器完全使 用硬件设计不同,Crusoe 处理器的解决方案采用软硬兼施办法,即硬件引擎核心和软件核心的合成结构。
Crusoe 处理器的硬件核心组成部分采用了高性能低功耗的VLIW(Very Long Instruction Word, 超长指令)引擎,其核心指令与普通的x86 处理器指令没有相同之处。这种VLIW 结构的处理器逻辑控 制芯片,采用非常简单的设计和软件的指令时序安排。它允许一个简单和非常直接的硬件执行流程, 包括7 条整数管道流水线和10 条浮点管道流水线,使得参与处理器逻辑控制的晶体管数量大为减少。
而Crusoe 处理器的软件核心则是包围的软件层构造,以此使得Crusoe 能与x 86 硬件结构的处理 器运行指令相同。这个具有全新定义的软件层又称之为“C o d e M o r p h i ng ”(代码融合)软件,它可 以动态“M o r p h i n g(融合)”x86 指令进入本地硬件引擎。在指令执行时,Cruose 编译x86 指令块一 次,就将编译的结果保存到编译缓冲区中,下一次(已经编译)的代码执行时,系统跳过编译这一 步,以全速直接运行已编译过的指令。