计算机组成原理第10章-09.ppt

资源描述

《计算机组成原理第10章-09.ppt》由会员分享，可在线阅读，更多相关《计算机组成原理第10章-09.ppt（34页珍藏版）》请在三一文库上搜索。

1、第10章安腾高性能处理机体系结构,10.1 高性能处理机体系结构的演变,10.2 安腾体系结构的基本设计思想,10.4 指令级并行机制,10.5 双核安腾处理机的组成,本章小结,10.3 安腾指令系统结构,6.1 单机系统的总线结构,IA32体系结构：IA32家族中的第一款32位微处理机流水技术 IA32体系结构仍是基于CISC架构的处理机。 Pentium 体系结构:CISC外壳加RISC内核的结构,一、IA体系结构的历史演变,10.1高性能处理机体系结构的演变,二、英特尔64位处理机的两种体系结构,1、64T(英特尔64):基于显式并行指令计算EPIC技术的IA64体系结构,不与IA64

2、指令系统的兼容性。 2、安腾体系结构:与IA64指令系统的兼容性。,安腾体系结构脱离了IA32 CISC体系结构的束缚，但并没有完全照搬RISC处理机的设计思想。 EPIC既不是RISC，也不是CISC，而是一种吸收了 CISC 和 RISC 两者长处的全新的体系结构。,显式并行指令计算(EPIC)技术超长指令字(VLIW)技术分支推断技术推测技术软件流水技术寄存器堆栈技术,10.2 安腾体系结构的基本设计思想,主要体现在以下几个方面:,安腾的指令中设计了属性字段，用于指明哪些指令可以并行执行。这些属性信息并不是在指令执行过程中由处理机判定后获得的，而是由编译程序在编译时通过对源代码

3、的分析获取指令级的并行性信息，并填写到执行代码中。这就是所谓显式并行的概念。,1.显式并行指令计算(EPIC)技术总线的特性：,EPIC 技术则充分利用现代编译程序强大的对程序执行过程的调度能力，由专用的 EPIC 编译器首先分析源代码，根据指令之间的依赖关系最大限度地挖掘指令级的并行性，从而确定哪些指令可以并行执行，然后把并行指令放在一起并重新排序，提取并调度其指令级的并行，并将这种并行性通过属性字段“显式”地告知指令执行部件。,超长指令字(VLIW)技术是提高计算机系统并行性的有效手段。VLIW系统中指令字长可多达几百位，编译器经过优化，能将多条能够并行执行的指令合并成一个具有多个操作码

4、的超长指令字，控制多个独立的功能部件工作。,EPIC是基于超长指令字的设计,2.超长指令字(VLIW)技术,通过将多条指令放入一个超长指令字，能有效提高处理机内各个执行部件的利用率。,（技术能将传统的“ if then else ”分支结构转变为无分支的顺序/并行代码，以避免由于错误预测分支而付出代价。当处理机在运行中遇到分支时，它并不是进行传统的分支预测并选择可能性最大的一个分支执行，而是按分支的所有可能的后续路径开始并行执行多段代码并暂存各段代码的执行结果，直到处理机能够确认分支转移与否的条件是真是假时，处理机再把应该选择的路径上的指令执行结果保留下来。,3、分支推断技术,采用了推断技术

5、后，原有的转移指令被转换成条件执行指令。原有的转移指令的所有的分支都被并行执行，无论哪条分支将被命中，都不会出现流水线断流现象，故消除了因分支预测失误而重新装载流水线导致的低效率现象。更进一步，以前由于程序分支和指令依赖等因素不能并行执行的许多指令现在完全可以并行执行，从而提高了处理机的执行效率。,控制推测技术和数据推测技术允许提前执行从内存单元至通用寄存器的取数指令。当程序中有分支时: 控制推测技术将位于分支指令之后的取数指令提前若干周期执行，以此消除访存延时，提高指令执行的并行度。,数据推测技术则用于解决提前取数指令后的数据相关性问题。,推测技术避免了cache命中失败而导致访存延迟的损

6、失，消除了因处理机空闲而导致的并行性降低的缺憾。,包括控制推测和数据推测，以减少存储器访问响应时间的影响。,4、推测技术：,安腾体系结构引入了新机制来支持软件流水，包括自动寄存器重命名、推断执行和特殊的循环终止指令。因此，安腾处理机能够通过旋转寄存器机制为每个循环步提供自己的寄存器。,安腾体系结构中硬件对编译器管理软件流水线的支持使得编译器能够生成精简的代码，以高度并行的方式实现循环操作。,安腾处理机利用128个通用寄存器中的96个堆栈寄存器实现寄存器堆栈。并在处理机内部设置一个寄存器堆栈引擎RSE来管理寄存器堆栈。当96个堆栈寄存器不够用时，寄存器堆栈引擎能够自动将寄存器堆栈与内存储器对接

7、，将寄存器堆栈溢出的数据转移到内存储器中保存，或在寄存器堆栈弹出数据时执行反向操作。这样，编译器将看到一个容量没有限制的寄存器堆栈空间。,6、寄存器堆栈技术,5、软件流水技术,10.3安腾指令系统结构,一、执行单元与指令类型,为提高并行处理能力，安腾处理机内部设置了多个执行单元。这些执行单元被分为四类：,I单元: 整数执行单元,M单元:存储器执行单元,B单元:转移执行单元,F单元:浮点执行单元,用于执行整数算术运算、逻辑运算、移位和比特处理等指令，以及32位数据和指针操作。,用于执行通用寄存器、浮点寄存器和存储器之间的取数指令、存数指令以及某些整数ALU运算指令。,用于执行转移分支类指令。,用

8、于执行浮点运算指令。,相应地，安腾指令系统中的所有指令被分成六种类型,二、安腾寄存器结构,与RISC体系结构类似，安腾体系结构大量使用寄存器操作,只有取数load和存数store指令才能够访问内存，所有其他指令都在寄存器上操作。,用户可直接使用的寄存器数量甚至大大超过了主流RISC处理机,安腾的主要寄存器,三、安腾指令格式,典型指令格式:安腾的每条指令占41位：,故一条典型的R R R型安腾指令需要21位来标识两个源寄存器操作数和一个目标寄存器操作数。,大多数指令还需要一个6位字段选择64个推断寄存器之一，用于支持推断执行、软件流水等功能。,指令束格式：,安腾体系结构采用超长指令字技术，利用集

9、束指令合成,指令组：,指令组将相互之间没有读后写相关，写后写相关，可以并行执行的一组指令集合。,指令束模版,模版字段正是为实现EPIC的设计思想服务的：一方面，编译器可以通过5位模版字段指明每个指令槽中的指令使用哪一个执行单元；另一方面，编译器可以通过模板字段明确给出指令束内或指令束间的依赖关系。,四、安腾汇编语言格式,qp Mnemonic . Comp1. Comp2 dest = src,选择64个推断寄存器之一。在指令执行时，如果选定的一比特推断寄存器的当前值为1，则该指令的执行结果最终会被硬件采用；否则，该指令的执行结果将被硬件放弃。对于不需要推断寄存器的指令，在机器指令中将默认指

10、定推断寄存器0，该寄存器的值固定为0。因此，所有的指令都可以看作是条件执行的。,为指令助记符,为指令完成符用于进一步限定指令所需完成的操作,源操作数,目标操作数,add rl=r2，r3 /简单指令:r2+r3=r1 (P4)add rl=r2，r3 /推断指令，指定推断寄存器4 add r1=r2，r3, /立即寻址指令 cmpeq P3，P5=0，r4 /带指令完成符的指令：将r4寄存器的值与0比较，若相等则置推断寄存器P3为1，P5为0；否则置推断寄存器P3为0，P5为1 ld8 r1=r7 /从寄存器r7指向的存储器空间读取连续8个字节,装入寄存器r1 add r6=r9，r8

11、； /与上一条指令不存在相关性，故可放在一个指令组中 sub r3=r1,r4 /第一条指令的目标操作数是本指令的源操作数，故需重新开始一个指令组 st8 r6=r10 /将寄存器r10的内容存入寄存器r6指向的存储器单元,例1:下面给出一些汇编指令,10.4指令级并行机制,一、推断执行技术,1、分支对系统性能的影响,分支是在两个指令序列中根据判定条件选择其中一个序列执行。为了判定最终选择哪一个指令序列执行，必须等待一些条件判断指令的执行结果。,指令执行一旦遇到分支转移，在执行判定操作之前，多个功能部件由于无法确定程序的执行方向而空闲等待，使系统性能明显下降。,分支预测并不能充分利用处理机流

12、水线的功能部件,2、安腾的推断技术原理,推断技术处理分支的方法是利用多个功能部件并行执行各个分支，然后根据判定结果选取某一分支的运行结果，因而可消除大部分的转移，使得整个系统的运行速度得到提高。,采用显式并行指令计算技术的安腾处理机将处理机的多个功能部件的并行处理能力与编译器的强大功能相结合，允许在编译时让编译器对程序进行优化，消除转移，提高效率。,安腾处理机的指令系统允许在每条指令中都指定一个推断寄存器。,3、推断执行的实现,例2考察下面的一个典型的 if-then-else 结构： If （x=0) then m=m+1 else m=m-1 在传统的超标量流水线体系结构中，完成上述判断通

13、常要首先安排一条比较语句，将x与0进行比较。得到比较结果后，再选择执行then分支或else分支。相应的汇编语句大致如下所示： cmp x，0 ; 比较x和0 je L1 ; 若相等则转移至标号L1 sub m,1 ；m=m-1 jmp L2 ；无条件转移至标号L2 L1：add m，1 ；m=m+l L2：,4、安腾处理机设计思想,首先，安腾指令系统中的每条指令都能够支持推断执行，所以第二条指令和第三条指令中的条件判断并不需要使用专门的判断指令。虽然后面两条指令是条件执行的，但整体条件判断结构不再需要分支指令。,其次，指令中的推断操作的安排是由编译器在编译过程中完成的，不需要处理机在执行指

14、令的非常短的时间内动态安排各条指令的条件执行。,最后，每条指令中虽然可以指定推断寄存器，但取指令、指令译码和执行操作并不需要等到推断寄存器的取值确定后再进行。,下面可以看一下传统流水线与安腾处理机比较。,传统流水线与安腾处理机比较,二、推测技术,1、存储器访问延迟与指令级并行,在现代计算机体系结构中，多级存储体系能够有效提高存储系统的性能价格比。但是，在多个功能单元实现并行处理的处理机中，执行指令的速度仍然受到存储器访问速度的制约。,现代 RISC 处理机用专用指令访问内存，取数指令往往成为影响处理机性能的瓶颈。见下图看一下取数指令对处理机并行执行指令的影响。,取数指令对处理机并行执行指令的

15、影响,load(a) k=k+1 i=i-1 n=n+3 q=q+a,现利用具有四个并行执行单元的超标量处理机完成如下的指令序列：如上指令序列： - 假设所有的算术运算指令可以在一个时钟周期中完成，而访存指令需要三个时钟周期。前四条指令可以分别安排在四个执行单元中并行执行。如果load指令所要访问的内存单元并没有被调入cache，那么load指令直接访问内存需要3个时钟周期才能执行完毕。而第5条指令依赖于load指令取得的操作数，所以在执行第五条指令之前需要等待两个时钟周期，从而所有的执行单元都必须闲置2个时钟周期，这就大大降低了执行效率。,2、控制推测,解决处理机访存延迟的办法就是将访存

16、操作尽可能提前执行。,在安腾处理机中，控制推测技术用于解决上述与取数指令有关的控制相关问题。,3、数据推测,控制推测技术能够解决分支和取数操作中的控制相关，但在指令优化过程中还可能存在数据相关。,【例3】考察下面包含分支与取数指令的程序段：,If (r3=0) then r2=r2+1 else r1=r3,其原始汇编代码如下：, cmpeq P1，P2=0，r3；, (P1) add r2=1，r2,/无条件执行：将r3寄存器的值与0比较，若相等则置推断寄存器P1为1，P2为0,否则置推断寄存器P1为0，P2为1, (P2) ld8 r1=r3,/若P1为1，则r2+1送r2,/若P2为1，

17、则以r3的内容为地址访存 ,8字节操作数被加载至寄存器r1.为了减少访存延迟，希望将第3条取数指令提前至第1条指令的前面，或是更早的位置。但第3条指令是推断执行的，其实际结果只有在P2为真的情况下才会被真正存储。,如果第3条指令固执行错误而引起异常处理，但最后发现该取数指令实际上并不需要执行，那么将浪费大量时间。,10.5双核安腾处理机的组成,一、双核安腾处理机的基本特性 1、并行处理技术 2、显式并行指令计算技术 3、超线程技术 4、三级大容量高速缓冲存储器 5、硬件辅助虚拟化技术 6、高速缓存安全技术,虚拟化技术,所谓虚拟化，是指用单个处理机模拟多个处理机并行工作，而每个处理机都可以被看作

18、一个独立的工作环境，从而在一个平台上同时运行多个操作系统，并且每一个操作系统中都有多个程序运行。应用程序在相互独立的空间内运行而互不影响，从而显著提高计算机的工作效率。,在双核安腾处理机中，英特尔首次把在奔腾4处理机中采用的超线程(Hyper Threading)技术引进到安腾处理器家族中，每个处理机支持四个线程，使其能够处理的应用线程数是早期单核产品的四倍。,超线程技术2/2,超线程技术在一颗处理机芯片内设计多个逻辑上的处理机内核，这些逻辑上的内核共享处理机内的整数运算单元、浮点运算单元和二级cache等资源，但却被模拟成多个物理内核芯片。从软件的角度看，系统中好像存在多个独立的处理机内核

19、，因而可以让单个处理机在线程级实现并行计算，支持多线程的操作系统和应用软件。但核心硬件资源实际上只有一套，故当多个线程同时访问某一个资源时，其中一个线程要暂时停止并让出资源，直到这些资源闲置后才能继续执行。,二、双核安腾处理机的组织结构,1、指令执行单元 2、处理机流水线 3、cache组织 4、双核仲裁,双核安腾处理机流水线,显示了安腾处理机的八级内核流水线结构。流水线每个时钟周期可以执行最多6条指令。前两个流水级构成前端，执行取指令操作IPG，指令指针生成，并将指令送入指令旋转级(ROT)的去耦缓冲器。扩展流水级(EXP)实现指令分派，REN级实现寄存器重命名。寄存器读操作级(RE

20、G)完成提交操作码操作，在这一级访问寄存器文件并在处理完推断控制后通过旁路网络提交数据。最后三级实现宽并行执行EXE、异常管理(DET)和写回WRB操作。其中异常检测级实现分支解析、存储器异常管理和推测等功能。,双核仲裁器的方框图,双核安腾处理机配置了两个独立的处理机内核，但两个内核之间必须相互协同工作。两个内核通过一个仲裁器连接到系统接口。仲裁器向每个内核提供低延迟的传输路径，以便对系统事件做出响应。,第6章小结,物理特性、功能特性电气特性、机械特性,总线的特性,总线带宽,总线本身所能达到的最高传输速率位，(Bs),当代流行的标准总线追求与结构、CPU、技术无关的开发标准。,总线内部结构

21、,数据传送总线(地址线、数据线、控制线)； (2) 仲裁总线； (3) 中断和同步总线； (4) 公用线(电源、地线、时钟、复位等信号线)。,第6章小结-续 1,信息的传输方式可采用：,(1)并行传送； (2)串行传送； (3)复用传送。,各种外围设备必须通过“接口”与总线相连。,接口是指CPU、主存、外围设备之间通过总线进行连接的逻辑部件。,接口部件在它动态联结的两个功能部件起着缓冲器和转换器的作用，以便实现彼此之间的信息传送。,CPU,接口,接口,第6章小结-续 2,为了解决多个主设备同时竞争总线控制权，必须具有总线仲裁部件,总线仲裁分为,集中式仲裁,分布式仲裁,集中式仲裁方式必有

22、一个中央仲裁器，它受理所有功能模块的总线请求，按优先原则或公平原则进行排队，然后仅给一个功能模块发出授权信号。,分布式仲裁不需要中央仲裁器，每个功能模块都有自己的仲裁号和仲裁器。每个仲裁器将仲裁总线上得到的仲裁号与自己的仲裁号进行比较，从而获得总线控制权。,总线定时是总线系统的又一核心问题之一,为了同步主方、从方的操作，必须制订定时协议。,通常采用同步定时与异步定时两种方式。,在异步定时协议中，后一事件出现在总线上的时刻取决于前一事件的出现，即建立在应答式或互锁机制基础上，不需要统一的公共时钟信号。,在同步定时协议中，事件出现在总线上的时刻由总线时钟信号来确定，总线周期的长度是固定的。,第6章小结-续 3,第6章小结- END,当代的总线标准大都能支持以下数据传送模式：,(1)读写操作；(2)块传送操作； (3)写后读、读修改写操作；(4)广播、广集操作。,PCI总线是当前流行的总线；,是一个高带宽且与处理器无关的标准总线；又是至关重要的层次总线；,它采用同步定时协议和集中式仲裁策略；并具有自动配置能力。,InfiniBand 标准，瞄准了高端服务器市场的最新I/O规范，它是一种基于开关的体系结构，可连接多达64000个服务器、存储系统、网络设备，能替代当前服务器中的PCI总线，数据传输率高达30GB/s。因此适合于高成本的较大规模计算机系统。,

展开阅读全文