638-第六章向量处理机.ppt_三一文库31doc.com

资源描述

《638-第六章向量处理机.ppt》由会员分享，可在线阅读，更多相关《638-第六章向量处理机.ppt（48页珍藏版）》请在三一文库上搜索。

1、计算机系统结构,第六章向量处理机,向量处理机是解决数值计算问题的一种高性能计算机结构向量处理机一般都采用流水线结构，有多条流水线并行工作向量处理机通常属大型或巨型机，也可以用微机加一台向量协处理器组成一般向量计算机中包括有一台高性能标量处理机必须把要解决的问题转化为向量运算，向量处理机才能充分发挥作用,6.1 向量处理的基本概念,什么是向量处理例如：一个简单的C语言程序如下： for (i = 1; i n; i+) ai = bi +ci ; bi =2*a i+1 ; 在标量处理机上用下述指令实现：,A、B、C分别是向量a、b、c在内存中的起始地址： INITIALIZE I=

2、1 if (iN ) GOTO 20 read bI read cI add bI+cI store aIbI+cI read aI+1 multiply 2*aI+1 store bI 2*aI+1 increment I I+1 goto 10 Stop,常量2，a,b,c中每一个元素都称为一个标量。该指令序列称为标量指令序列，执行过程为标量处理过程，每一条指令只处理一个或一对数据。,上述程序用向量化指令序列实现为： a1:n=b1:n+c1:n temp1:n=a2:n+1 b1:n=2*temp1:n 将n个独立的数构成的整体称为向量，对这一组数的运算称为向量处理。一条向量处理指令可以

3、处理n个或n对操作数。,向量处理方式要根据向量运算的特点和向量处理机的类型选择向量的处理方式。有三种处理方式： 1横向处理方式，又称为水平处理方式，横向加工方式等。向量计算是按行的方式从左至右横向地进行。 2纵向处理方式，又称为垂直处理方式，纵向加工方式等。向量计算是按列的方式自上而下纵向地进行。 3纵横处理方式，又称为分组处理方式，纵横向加工方式等。横向处理和纵向处理相结合的方式。以一个简单的C语言编写的程序为例，说明向量的三种处理方式的工作原理。 for (i = 1；i = n；i+) yi = ai ( bi + ci );,横向处理方式也称为水平处理方式，横向加工方式等逐个

4、分量进行处理：假设中间结果为TI 计算第1个分量： T1 B1C1 Y1 A1T1 计算第2个分量： T2 B2C2 Y2 A2T2 最后一个分量： TN BNCN YNANTN 存在两个问题：在计算向量的每个分量时，都发生写读数据相关。流水线效率低如果采用多功能流水线，必须频繁进行流水线切换横向处理方式对向量处理机不适合即使在标量处理机中，也经常通过编译器进行指令流调度。,纵向处理也称为垂直处理方式，纵向加工方式等 T1 = B1 + C1 T2 = B2 + C2 Tn = Bn + Cn Y1 = A1T1 Y2 = A2T2 YN = AN TN 采用向量指令只需要2条： V

5、ADD B， C， T VMUL A， T， Y 这种处理方式适用于向量处理机，数据相关不影响流水线连续工作。不同的运算操作只需要切换1次。,纵横处理方式将长度为n的向量分成若干组，每组长度为m，组内按纵向方式处理，依次处理各组。用于寄存器-寄存器结构的向量处理机中向量寄存器的长度是有限的，例如，每个向量寄存器有64个寄存器。当向量长度N大于向量寄存器长度n时，需要分组处理。分组方法：nm，其中：为余数，共分组。组内采用纵向处理方式，组间采用横向处理方式。因此，也称为分组处理方式，纵横向加工方式等。,6.2 向量处理机结构,向量处理机的基本思想是把两个向量的对应分量进行运算，产生一个

6、结果向量。最关键问题是存储器系统能够满足运算部件带宽的要求。主要采用两种方法： 1. 存储器存储器结构多个独立的存储器模块并行工作处理机结构简单，对存储系统的访问速度要求很高 2. 寄存器寄存器结构运算通过向量寄存器进行需要大量高速寄存器，对存储系统访问速度的要求降低,存储器存储器结构,下图说明一个具有8个存储体的向量处理机：,三条互相独立的数据通路，可并行工作，同一个存储模块同时只能为一个通路服务,向量处理示例1：求C=A+B，设A、B、C的存储形式如图：,A、B、C在主存储器中的存放情况,两个向量在流水线方式下分量相加的时序图,时间（时钟周期）,在流水线的输入端和输出端增加缓

7、冲器可以消除争用存储器现象。,W0,RB8,RB8,RA8,RA8,RB0,RB0,RA0,RA0,RB8,RB8,RA8,RA8,RB1,RB1,RA1,RA1,RB8,RA8,RA8,RB2,RB2,RA2,RA2,RA8,RA8,RB3,RB3,RA3,RA3,RA8,RB4,RB4,RA4,RA4,RB5,RB5,RA5,RA5,RB6,RB6,RA6,RA6,RB7,RB7,RA7,RA7,7,6,5,4,3,2,1,0,7,6,5,4,3,2,1,0,6,5,4,3,2,1,0,5,4,3,2,1,0,M0,M1,M2,M3,M4,M5,M6,M7,0 1 2 3 4 5 6 7

8、8 9 10 11 12,存储器发生冲突时两个向量相加的时序图,寄存器-寄存器结构,把存储器-存储器结构中的缓冲栈改为向量寄存器，运算部件需要的操作数从向量寄存器中读取，运算的中间结果也写到向量寄存器中。向量寄存器与标量寄存器的主要差别是：一个向量寄存器能够保存一个向量，例如：64个64位寄存器。连续访问一个向量的各个分量。需要有标量寄存器和地址寄存器等。采用寄存器-寄存器结构的主要优点：降低主存储器的流量。例如：采用寄存器-寄存器结构的CRAY-1与采用存储器-存储器结构的STAR-100比较，运算速度高3倍多，而主存流量低2.5倍。 STAR-100的主存储器流量：328W/1

9、.28us=200MW/S CRAY-1的主存储器流量： 4W/50ns=80MW/S,CRAY-1向量处理机结构,向量处理机系统结构的设计目标提高向量处理机性能的常用技术,6.3 提高向量处理机性能的办法,向量处理机系统结构的设计目标,较好地维持向量/标量性能平衡向量平衡点（vector balance point)定义为：为了使向量硬件设备和标量硬件设备的利用率相等，一个程序中向量代码所占的百分比。例如：系统在向量模式下能够达到9Mflops，在标量模式下能够达到1Mflops的运算速度，假设代码的90%是向量运算，10%是标量运算，这样花在两种模式上的计算时间相等，那么向量平衡点为

10、0.9。,几种超级计算机的向量性能和标量性能（了解）,可扩展性随处理机数目的增加而提高可扩展性的三个目标：规模可扩展性、换代可扩展性、问题可扩展性。提供高性能的I/O和易访问的网络,提高向量处理机性能的常用技术,链接技术向量指令的类型：,第一类向量指令,第二类向量指令,向量运算中的相关和冲突向量运算中的数据相关和功能部件冲突：采用顺序发射顺序完成方式 (1) 写读数据相关。 (2) 读读数据相关，或向量寄存器冲突。 (3) 运算部件冲突。,V0 V1V2 V3 V1V2 V3 V4 * V5 V6 V4 +V5 (a)不相关的指令 (b)功能部件的预定 V3 V1V2 V0 V1V

11、2 V6 V1*V5 V3 V1 + V5 (c) 操作数寄存器预定 (d)功能部件和操作数寄存器的预定 3、向量链接技术(chaining) 结果寄存器可能成为后继指令的操作数寄存器两条有数据相关的向量指令并行执行，这种技术称为两条流水线的链接技术。,例如：有如下3条向量指令： V3 A V2 V0V1 V4 V2V3 第一、二条指令没有数据相关和功能部件冲突，可以同时开始执行。第三条指令与第一、二条指令均存在写读数据相关，可以链接执行。,三种执行方式比较： (1) 如果向量长度为N，三条指令采用串行方法执行的时间为： (1+6+1)+N-1+(1+6+1)+N-1+(1+7+1)+N-1

12、 = 3N+22 拍 (2) 如果前两条指令并行执行，第三条指令串行执行，则执行时间为： (1+6+1)+N-1+(1+7+1)+N-1 = 2N+15 拍 (3) 如果采用链接技术，则执行时间为： (1+6+1)+(1+7+1)+(N-1)=17+N-1=N+16 拍,实现链接的条件： (1) 没有向量寄存器冲突和运算部件冲突。 (2) 只有第一个结果送入向量寄存器的那一个周期可以链接。 (3) 先行的两条指令产生运算结果的时间必须相等。 (4) 两条向量指令的向量长度必须相等。,当向量的长度大于向量寄存器的长度时，必须把长向量分成长度固定的段，采用循环结构处理这个长向量，这种技术称为向量循

13、环开采技术，也称为向量分段开采技术。例如：A和B为长度N的向量。 for (i=1; iN; i+) ai=5*b(i)+c; 当N为当N为64或更小时，产生A数组的7条指令序列是： 1：S15.0 在标量寄存器内设置常数 2：S2C 将常数C装入标量寄存器 3：VLN 在VL寄存器内设置向量长度 4：VoB 将B向量读入向量寄存器 5：V1S1 Vo B数组的每个分量和常数相乘 6：V2S2V1 C和5 B(x)相加 7：AV2 将结果向量存入A数组,向量循环开采技术,向量处理机主要出自美国和日本。美国著名的向量计算机公司有：CRAY、CDC、TI等日本公司有：NEC、Fujitsu、

14、Hitachi等,6.4 向量处理机实例(自学),机器型号,美国和日本制造的向量处理机,Cray IS,配置,特点,有10条流水线的单处理机，12.5 ns，COS/CF7 2.1,第一台基于ECL 的超级计算机， 1976年问世,Cray 2S/4-256,256M字存储器的4台处理机， 4.lns, COS或 UNIX/CF77 3.0,16K字的本地存储器，移植了 UNIXV， 1985问世,向量处理机的历史与现状,Cray Y-MP 816由1至8台处理机组成，多个处理机共享中央存储器、I/O子系统、处理机通信子系统和实时钟。中央存储器由256个交叉访问的存储体组成。每个处理机

15、对4个存储器端口的交叉访问。CPU的时钟周期为6ns。 4个存储器端口允许处理机同时执行两个标量和向量取操作、一个存储操作和一个独立的I/O操作。,CRAY Y-MP向量处理机,每个CPU由14个功能部件组成，分为向量、标量、地址和控制四个子系统。使用了大量地址寄存器、标量寄存器、向量寄存器、中间寄存器和临时寄存器。可以实现功能流水线灵活的链接。 I/O子系统支持三类通道，传输速率分别为6兆字节/秒，100兆字节/秒和1G字节/秒。,以通用中小型机，或微机作为主机；向量处理部件作为外围设备，加速向量的处理速度。向量协处理器是为中小型用户设计的，解决科学计算中大量向量处理任务的一种装置。

16、与各种不同主机相连的向量协处理器，价格和功能的变化范围很大。 FPS-164是最典型的向量协处理器，美国浮点系统公司生产。每个向量处理器有两个乘加部件，两组向量寄存器，两组标量寄存器。,向量协处理器,每个乘加部件每个周期能输出一个结果。向量寄存器：2组?4个?个操作数，每个操作数个字节。运算过程：标量处理器把原始数据装入向量寄存器，把标量数据和指令播送到全部向量处理器。向量处理器就同步地运算，但它们处理的数据是各不相同的。向量操作可以和标量处理器中的标量操作同时进行。向量协处理器特别适合于大规模的数值处理，用户购买需要台数的向量处理器，使用现有的处理机作为主机。,衡量向量处理机性能的主

17、要指标有：向量指令处理时间Tvp、最大性能R、半性能向量长度n1/2等。 1、向量指令处理时间Tvp 执行一条向量长度为n的向量指令的时间Tvp表示为： TvpTs + Tvf + (n - 1) Tc 其中：Ts为向量流水线的建立时间。 Tvf为向量流水线的流过时间。 Tc为流水线“瓶颈”段的执行时间。如果每段执行时间都等于一个时钟周期，则有： Tvps + e + (n - 1) t 其中：s为向量流水线建立时间所需的时钟周期数。e为向量流水线流过时间所需的时钟周期数。 n为向量长度。t为时钟周期长度。把几条能在一个时钟周期内同时开始执行的向量指令称为一个编队，同一个编队中的指令一

18、定不存在功能部件冲突和数据相关。,6.5 向量处理机的性能评价,例1：假设一台向量处理机中功能部件的启动开销为：取数和存数部件为12个时钟周期、乘法部件为7个时钟周期、加法部件为6个时钟周期。先把序列向量操作分成编队，然后计算每个编队的开始时间、获得第一个结果元素的时间和获得最后一个结果元素的时间。 LV V1， Rx ；取向量x MULTSV V2， F0， V1 ；向量和标量相乘 LV V3， Ry ；取向量Y ADDV V4， V2， V3 ；加法 SV Ry， V4 ；存结果解：第一条指令LV为第一个编队。MULTSV指令和第二条LV指令为第二个编队。ADDV指令为第三个编队。SV指

19、令为第四个编队。,如果采用向量链接技术（不考虑访问存储器的冲突），需要：12 + 7 + 6 + 12 + n 136 + n个周期。如果考虑向量长度大于向量寄存器长度时，则需要分段开采。向量长度为n的一组向量操作的整个执行时间为：其中：Tloop为执行标量代码的开销， Tstart为每个编队的向量启动开销，MVL是向量寄存器的长度。 Tloop可以看作是一个常数，Cray 1机的 Tloop 约等于15。例2：在一台向量处理机上实现ABs操作，其中A和B是长度为200的向量，s是一个标量。向量寄存器长度为64。各功能部件的启动时间与上例相同。求总的执行时间。,解：因为向量长度超过了

20、向量寄存器的长度，所以要采取分段开采方法。每次循环主要由下面三条向量指令组成： LV V1， Rb ；取向量B MULTVS V2， V1， Fs ；向量和标量相乘 SV Ra， V2 ；存向量假设A和B的分别放在Ra和Rb之中，s在Fs中。三条指令之间存在有写读数据相关，因此必须把它们分成3个编队，Tchime= 3。 T2004(15 + Tstart) + 2003 60（4Tstart）+ 600 660（4Tstart）其中：Tstart=12 + 7 + 12 = 31，因此，T200660 + 431784 每个结果元素的平均这些时间为：768/200 3.9个周期。,例

21、3：在某台向量处理机上执行代码代码如下： 1：LV V1， Rx ；取向量x 2：MULTSV V2， F0， V1 ；向量和标量相乘 3：LV V3， Ry ；取向量Y 4：ADDV V4， V2， V3 ；加法 5：SV Ry， V4 ；存结果考虑访问存储器冲突，向量寄存器长度为n、各功能部件的启动时间与上例相同。求总的执行时间。解：指令1、2，指令3、4和指令5分成三个编队，前两个编队中两条指令采用向链接技术执行。 Tchime=3，Tloop=15，Tstart=12+7+12+6+12=49，VL=64。,2、最大性能R R表示当向量长度为无穷大时的向量流水线的最大性能。常在评

22、价峰值性能时使用，单位为MFLOPS。最大性能R 表示为：其中：n为向量长度； Tn为一组向量操作的整个执行时间。对于例3，假设时钟频率为200MHZ。每个循环有2个浮点操作：,3、半性能向量长度n1/2 为达到一半R值所需的向量长度称为半性能向量长度n1/2。主要评价向量流水线建立时间对性能的影响。 CRAY-1的n1/21020，CYBER 205的n1/2100。由MFLOPS定义可知：对于例3，如果向量处理机的时钟频率为200MHz。因为：R=100MFLOPS，因此有： 1002 2 n1/2Tn1/2 200 假设：n1/2 64，因此：Tn1/2 64 + 3 n1/2 解得：1002 2 n1/2(64 + 3 n1/2) 200 n1/212.8 所以：n1/213,

展开阅读全文

638-第六章 向量处理机.ppt

638-第六章向量处理机.ppt