流水线技术.ppt_三一文库31doc.com

资源描述

《流水线技术.ppt》由会员分享，可在线阅读，更多相关《流水线技术.ppt（111页珍藏版）》请在三一文库上搜索。

1、第三章流水线技术,3.1 流水线的基本概念 3.2 DLX的基本流水线 3.3 流水线的相关 3.4 异常处理 3.5 DLX中多周期操作的处理 3.6 MIPS R4000流水线,Review:性能评测,平均CPI? 每类指令的使用频度,Type CPIi for type Frequency CPIi x freqIi Arith/Logic 4 40% 1.6 Load 5 30% 1.5 Store 4 10% 0.4 branch 3 20% 0.6 Average CPI: 4.1,是否可以使 CPI 4.1?,在一条指令执行过程中下图有许多空闲部件可以让指令重叠执行?,洗衣为

2、例 Ann, Brian, Cathy, Dave 每人进行洗衣的动作： wash, dry, and fold washer需要 30 minutes Dryer 需要 40 minutes “Folder” 需要 20 minutes,3.1 流水线的基本概念,Sequential Laundry,顺序完成这些任务需要 6 小时如果采用流水作业, 需要多长时间?,30,40,20,30,40,20,30,40,20,30,40,20,6 PM,7,8,9,10,11,Midnight,T a s k O r d e r,Time,流水线作业: 尽可能让任务重叠进行,流水作业完成四人的洗衣

3、任务只需要 3.5 hours,6 PM,7,8,9,10,11,Midnight,T a s k O r d e r,Time,流水线技术要点,流水线技术并不能提高单个任务的执行效率，它可以提高整个系统的吞吐率流水线中的瓶颈最慢的那一段多个任务同时执行，但使用不同的资源其潜在的加速比流水线的级数流水段所需时间不均衡将降低加速比流水线存在装入时间和排空时间，使得加速比降低由于存在相关问题，会导致流水线停顿,指令流水线：CPU执行大量的指令，指令吞吐率非常重要 DLX 的指令格式,3.2 DLX的基本流水线,所有指令相同长度在指令格式中寄存器位于同一位置只有Loads和Store

4、s可以对存储器操作,DLX数据通路一种简单实现,Memory Access,Write Back,Instruction Fetch,Instr. Decode Reg. Fetch,Execute Addr. Calc,L M D,MUX,Memory,Reg File,MUX,MUX,Data Memory,MUX,Sign Extend,Zero?,Next SEQ PC,Next PC,WB Data,RD,RS1,RS2,Imm,基本操作(Step 1 & 2),Step 1 - IF IR - MemPC - fetch the next instruction from memo

5、ry NPC - PC + 4 - compute the new PC Step 2 - ID - instruction decode and register fetch step A - RegsIR610 B - RegsIR1116 可能读取的寄存器值没有用，但没有关系，译码后如果无用，以后操作就不用 Imm (IR16)16 # IR16-31,基本操作Step 3, 执行阶段,根据译码的结果，有四种情况 Memory Reference ALUOutput - A + (IR16)16 # IR1631- effective address SMD - B - data to

6、be written if it is a STORE - SMD (store mem data) = MDR Register - Register ALU instruction ALUOutput - A op B Register - Immediate ALU instruction ALUOutput - A op (IR16)16 # IR1631) Branch/Jump ALUOutput - NPC + (IR16)16 # IR1631 cond - A op 0 - for conditional branches As value is the condition

7、base (= for BEQZ) 在简单的 Load-Store机器中，不存在即需要计算存储器地址，指令地址，又要进行ALU运算的指令，因此可以将计算有效地址与执行合二为一，在一个流水段中进行。,Step 4 & Step5,Step 4 MEM - memory access/branch completion memory reference LMD - MemALUOutput - if its a load; LMD (load memory data) = MDR 或 MemALUOutput - SMD branch if (cond) then PC - ALUOutput e

8、lse PC - NPC for Jumps the condition is always true Step 5 WB - write back Reg - Reg ALU RegsIR1620 - ALUOutput Reg - Immed ALU RegsIR1115 - ALUOutput Load RegsIR1115 - LMD,这种结构是否可行,模型是正确的，但没有优化还有其他选择指令和数据存储器是否可以分开采用一个长周期还是5个短周期实现,单周期和多周期控制,多周期控制可实现指令重叠执行,DLX的基本流水线,假设流水线周期为每步所花费的时间,为什么用流水线?,假设执行1

9、00条指令单周期机器 45 ns/cycle x 1 CPI x 100 inst = 4500 ns 多周期机器 10 ns/cycle x 4.6 CPI (due to inst mix) x 100 inst = 4600 ns 理想流水线机器 10 ns/cycle x (1 CPI x 100 inst + 4 cycle drain) = 1040 ns,为什么用流水线(cont.)?资源利用率高,I n s t r. O r d e r,Time (clock cycles),Inst 0,Inst 1,Inst 2,Inst 4,Inst 3,流水线正常工作的基本条件,各段

10、间需要使用寄存器文件保存当前段传送到下一段的数据和控制信息存储器带宽是非流水的5倍,新的DLX数据通路（图3.12 Page 88),Review lecture5,流水线技术要点流水线技术并不能提高单个任务的执行效率，它可以提高整个系统的吞吐率流水线中的瓶颈最慢的那一段多个任务同时执行，但使用不同的资源其潜在的加速比流水线的级数流水段所需时间不均衡将降低加速比流水线存在装入时间和排空时间，使得加速比降低由于存在相关问题，会导致流水线停顿流水线正常工作的基本条件增加寄存器文件保存当前段传送到下一段的数据和控制信息存储器带宽是非流水的5倍,新的DLX数据通路（图3.12 P

11、age 88),在新的Datapath下各段的操作,IF IF/ID.IR MemPC; IF/ID.NPC,PC (if (EX/MEM.opcode = branch) ,Load or store instruction EX/MEM.IR ID/EX.IR EX/MEM.ALUOutput ID/EX.A + ID/EX.Imm EX/MEM.B ID/EX.B Branch instruction EX/MEM.ALUOutput ID/EX.NPC + (ID/EX.Imm 2) EX/MEM.cond (ID/EX.A = 0)； MEM ALU Instruction MEM/

12、WB.IR EX/MEM.IR MEM/WB.ALUOutput EX/MEM.ALUOutput; Load or store instruction MEM/WB.IR EX/MEM.IR; MEM/WB.LMD MemEX/MEM.ALUOutput; or MemEX/MEM.ALUOutput EX/MEM.B; （store）,WB ALU instruction RegsMEM/WB.IRrd MEM/WB.ALUOutput; or RegsMEM/WB.IRrt MEM/WB.ALUOutput; For load only RegsMEM/WB.IRrt MEM/WB.LM

13、D,简化的 Pipelining（图3.11 Page 87),I n s t r. O r d e r,Time (clock cycles),流水线性能分析,基本度量参数：吞吐率，加速比，效率吞吐率: 单位时间内流水线所完成的任务数或输出结果数量最大吞吐率：流水线在连续流动达到稳定状态后所得到的吞吐率。,最大吞吐率取决于流水线中最慢的一段所需的时间,最慢的一段是性能的瓶颈解决办法：串联：将最慢段进一步划分并联：增加部件,实际吞吐率：假设m段，完成n个任务，单位时间所实际完成的任务数。加速比: m段流水线的速度与等功能的非流水线的速度之比。效率：流水线的设备利用率。流水线性能

14、分析举例例3.1 p94,例3.1时空图,review: Pipelining,指令流水线通过指令重叠减小 CPI 充分利用数据通路当前指令执行时，启动下一条指令其性能受限于花费时间最长的段检测和消除相关如何有利于流水线技术的应用所有的指令都等长只有很少的指令格式只用Load/Store来进行存储器访问,review 流水线性能分析,流水线技术应用的难度何在? ：相关问题,吞吐率、加速比、效率之间的关系,3.3 流水线的相关,相关的基本概念结构相关数据相关控制相关,采用流水线技术带来的新的问题,流水线相关结构相关：同一时间两种方式使用同一资源例如 washer/dry

15、er 合在一起， IM和ID合在一起控制相关: 试图在条件未评估之前，就做决定例如 branch instructions 数据相关：在数据未准备好之前，就需要使用数据当前指令的执行需要上一条指令的结果使用等待策略总是可以解决相关流水线控制必须能检测相关，否则由软件设计来避免采用相应操作解决相关 (or 等待),Mem,单个存储器引起的结构相关,I n s t r. O r d e r,Time (clock cycles),Load,Instr 1,Instr 2,Instr 3,Instr 4,Reg,Mem,Reg,Reg,Mem,Reg,Detection is easy

16、in this case! (right half highlight means read, left half write),消除结构相关（图3.18 Page 98),结构相关对性能的影响,例如: 如果每条指令平均访存1.3 次，而每个时钟周期只能访存一次，那么在其他资源100利用的前提下，平均 CPI 1.3,流水线的加速比计算,For simple RISC pipeline, CPI = 1:,例如： Dual-port vs. Single-port,机器A: Dual ported memory (“Harvard Architecture”) 机器 B: Single po

17、rted memory, 但其流水线实现时比非流水实现时钟频率快1.05 倍 Ideal CPI = 1 for both，Load指令CPI = 2 所执行的指令中Loads指令占 40% SpeedUpA = Pipeline Depth/(1 + 0) x (clockunpipe/clockpipe) = Pipeline Depth Cycle Timeunpipeb = 1.05 CycleTimepipe SpeedUpB= Pipeline Depth/(1 + 0.4 x 1) x (cycleTimeunpipe/(cycletimepipe) = (Pipeline De

18、pth/1.4) x 1.05 = 0.75 x Pipeline Depth SpeedUpA / SpeedUpB = Pipeline Depth/(0.75 x Pipeline Depth) = 1.33 Machine A 比Machine B快,数据相关问题（图3.20 Page 100),Time (clock cycles),写后读相关(Read After Write (RAW) InstrJ tries to read operand before InstrI writes it 由于实际的数据交换需求而引起的,三种基本的数据相关,I: add r1,r2,r3 J:

19、sub r4,r1,r3,读后写相关Write After Read (WAR) InstrJ writes operand before InstrI reads it 编译器编写者称之为“anti-dependence”（反相关），是由于重复使用寄存器名“r1”引起的. DLX 5 段基本流水线不会有此类相关因为: 所有的指令都是5段, 并且读操作总是在第2段，而写操作在第5段,写后写相关（Write After Write (WAW)） InstrJ writes operand before InstrI writes it. 编译器编写者称之为“output dependence

20、” ，也是由于重复使用寄存器名 “r1”引起的. 在DLX 5段基本流水线中，也不会发生。因为所有指令都是5段，并且写操作都在第5段在后面的复杂的流水线中我们将会看到 WAR 和WAW 相关,Review -流水线技术要点,流水线技术并不能提高单个任务的执行效率，它可以提高整个系统的吞吐率多个任务同时执行，但使用不同的资源流水线性能分析：吞吐率、加速比、效率流水线中的瓶颈最慢的那一段其潜在的加速比流水线的级数流水段所需时间不均衡将降低加速比流水线存在装入时间和排空时间，使得加速比降低由于存在相关问题，会导致流水线停顿结构相关、数据相关和控制相关,采用定向技术避免数据相关（图

21、3.21 Page 102),采用定向技术仍然存在相关（图3.23 Page 153),DMem,Try producing fast code for a = b + c; d = e f; assuming a, b, c, d ,e, and f in memory. Slow code: LW Rb,b LW Rc,c ADD Ra,Rb,Rc SW a,Ra LW Re,e LW Rf,f SUB Rd,Re,Rf SW d,Rd,采用软件方法避免数据相关,Fast code: LW Rb,b LW Rc,c LW Re,e ADD Ra,Rb,Rc LW Rf,f SW a,Ra

22、SUB Rd,Re,Rf SW d,Rd,流水线相关检测部件能检测到的相关情况,review: Pipelining,指令流水线通过指令重叠减小 CPI 充分利用数据通路当前指令执行时，启动下一条指令其性能受限于花费时间最长的段检测和消除相关如何有利于流水线技术的应用所有的指令都等长只有很少的指令格式只用Load/Store来进行存储器访问,review 流水线性能分析,流水线技术应用的难度何在? ：相关问题,吞吐率、加速比、效率之间的关系,Review -流水线技术要点,流水线技术并不能提高单个任务的执行效率，它可以提高整个系统的吞吐率多个任务同时执行，但使用不同的资源流水

23、线性能分析：吞吐率、加速比、效率流水线中的瓶颈最慢的那一段其潜在的加速比流水线的级数流水段所需时间不均衡将降低加速比流水线存在装入时间和排空时间，使得加速比降低由于存在相关问题，会导致流水线停顿结构相关、数据相关和控制相关,采用定向技术硬件所需做的修改,定向源为R-R ALU操作的定向比较判断,定向源为ALUimm操作的定向比较判断,定向源为Load操作的比较判定,review lecture 6,流水线技术应用的难度何在? ：相关问题,吞吐率、加速比、效率之间的关系,Review lecture 6 (cont.),结构相关概念：由于争用资源而引起的解决办法数据相关概念：

24、由于存在对相同单元的读写引起的。解决办法硬件：定向技术（forwarding) 软件: 指令级调度控制相关概念：由于控制类指令引起的解决办法？,控制相关,问题更复杂，分支需要解决两个问题分支目标地址（转移成功意谓着PC值不是 PC+4） CC是否有效，这两点在DLX中都在流水线的靠后段中确定译码在ID段后，此时取进来的指令可能是错误的指令对于简单的DLX流水线 - 3 cycle branch penalty 有效地址在EX段才能确定条件是否为真在MEM段因此有3个stall 流水线的时空图,回顾DLX数据通路,减少分支延时的方法,修改数据通路使得目标地址和分支条件尽早

25、确定，其中之一尽早确定是没有用的判断是否为0可以在ID段确定使用另一个加法器计算可以在ID段计算BTA(分支目标地址) 即在ID段形成下一条指令地址，两种可能（BTA, PC+4) 选择哪一个取决于ID段确定的CC 必要时使用互锁机制来插入Stall 设计合适的ISA e.g. BNEZ, BEQZ on DLX 使得CC可以在ID段确定调度一些指令放入分支的延迟槽中统计分支成功和失败的情况，提高预测精度,新的DLX数据通路,改进后流水线的分支操作,四种可能的解决冲突的方法,#1: Stall 直到分支方向确定 #2: 预测分支失败直接执行后继指令如果分支实际情况为分支成功，则撤

26、销流水线中的指令对流水线状态的更新 DLX分支指令平均47%为分支失败由于PC+4已经计算出来，因此可以用它来取下一条指令 #3: 预测分支成功平均53% DLX 分支为分支成功但分支目标地址在ID段才能计算出目标地址 DLX 还是有1个 cycle branch penalty,四种可能的解决冲突的方法,#4: 延迟转移定义分支发生在一系列指令之后 branch instruction sequential successor1 sequential successor2 sequential successorn branch target if taken 5级流水只需要一个延迟

27、槽就可以确定目标地址和确定条件 DLX 使用这种方式,延迟转移,从何处选择指令来填充延迟槽？分支指令之前的指令：最好从分支目标地址处取: 在分支成功可能性大时，这种策略较好从分支失败处调度：仅在分支失败时编译器可以有效的调度一个延迟槽如果提供取消分支时，编译器可以调度更多的指令填入延迟槽,评估减少分支策略的效果,Scheduling Branch CPI speedup v. speedup v. scheme penalty unpipelined stall Stall pipeline 3 1.42 3.5 1.0 Predict taken 1 1.14 4.4 1.26

28、Predict not taken 1 1.09 4.5 1.29 Delayed branch 0.5 1.07 4.6 1.31 1.14 = 1 + 1*14%*100% 1.09 = 1+1*14%*65% 1.07 = 1+ 0.5*14% Conditional & Unconditional = 14%, 65% change PC,小结: Pipelining,通过指令重叠减小 CPI 充分利用数据通路当前指令执行时，启动下一条指令其性能受限于花费时间最长的段检测和消除相关如何有利于流水线技术的应用所有的指令都等长只有很少的指令格式只用Load/Store来进行存

29、储器访问难度何在? 相关问题,Quiz,流水线的成本（cost）可以用c+k*h估算，其中 c为所有功能段本身的总成本，h为段间锁存器成本，k为段数。流水线的性价比可以定义为 PCR = Throughput/(c+k*h), 其中Throughput = 1/t, t为t_latch+T/k, t_latch为锁存器的延迟时间， T为在非流水线的机器上采用顺序执行方式完成一个任务所花费的总时间。试推导出使得PCR最大化的最优段数k_opt的表达式。,3.4 异常处理,流水线使得系统的吞吐率提高问题:由于相关会影响系统性能的发挥更严重的问题：异常 Why？多级流水多周期指令异常可以

30、发生在任何地方指令序与异常序可能不同必须按指令序处理异常采用何种策略取决于异常的类型,异常的类型,I/O device request invoking an OS service from a user program e.g. via an unimplemented instruction on a Mac tracing instruction execution breakpoint integer or FP arithmetic error such as overflow page fault misaligned memory access memory protect

31、ion violation undefined instruction hardware malfunction - like parity or ECC error power failure,异常响应请求的种类,Synchronous vs. Asynchronous synchronous caused by a particular instruction asynchronous - external devices and HW failures User requested vs. Coerced requested is predictable and can happen a

32、fter the instruction User maskable vs. user non-maskable e.g. arithmetic overflow on some machines is user maskable Within vs. Between instructions within = synchronous, key is that completion is prevented some asynchronous are also within Resume vs. Terminate program implications for how much state

33、 must be preserved,例如,最困难的问题,异常发生在指令中，并且要求恢复执行要求=流水线必须安全地 shut down PC必须保存如果重新开始的是一条分支指令，它需要重新执行这意味着条件码状态必须没有改变在DLX中的处理步骤强制trap指令在下一个IF段进入流水线封锁引起故障的指令的所有写操作和流水线中后继指令的写操作让所有前序指令执行完（如果能）保存重新执行时的地址（PC） PC 或 PC + 1 调用OS处理异常,考虑延迟转移时，假设有两个延迟槽的分支 I Branch Instr1 I+1 Delay instr1 I+2 Delay Instr2 I+

34、3 inst I+4 inst 假设branch指令是好的第1个延迟指令引起缺页中断第2条指令封锁异常处理后，缺省的恢复点是第一条延迟指令不会有Branch指令因此需要保存的PC值不止一个，根据具体情况进行恢复,精确中断与非精确中断,引起异常的指令前面的指令都已执行完，故障后的指令可以重新从故障点后执行理想情况，引起故障的指令没有改变机器的状态要正确的处理这类异常请求，必须保证故障指令不产生副作用在有些机器上，浮点数异常流水线段数多，在发现故障前，故障点后的指令就已经写了结果，在这种情况下，必须有办法处理。当今很多高性能计算机，Alpha 21164，MIPSR10000等

35、支持精确中断，但精确模式要慢10倍，一般用在代码调试时，很多系统要求精确中断模式，如IEEE FP标准处理程序，虚拟存储器等。精确中断对整数流水线而言，不是太难实现,DLX中的异常,IF page fault, misaligned address, memory protection violation ID undefined or illegal opcode EX arithmetic exception MEM page fault, misaligned address, memory protection violation WB none,Review,控制相关概念：减少

36、性能损失的基本方法冻结或排空流水线预测分支成功预测分支失败延迟转移异常异常的分类精确中断和非精确中断,Review- 相关的处理,结构相关概念：由于争用资源而引起的解决办法数据相关概念：由于存在实际的通信，而引起的解决办法：硬件：定向技术（forwarding) 软件: 指令级调度控制相关概念：由于控制类指令引起的解决办法？,Review （续）,控制相关概念：减少性能损失的基本方法-转移地址，条件码静态处理：冻结或排空流水线预测分支成功预测分支失败延迟转移异常异常的分类精确中断和非精确中断,3.5 DLX中多周期操作的处理,问题浮点操作

37、在12个cycles完成是不现实的，一般要花费较长时间在DLX中如何处理在1到2个cycles时间内完成的处理方法采用较慢的时钟源，或在FP部件中延迟其EX段现假设FP指令与整数指令采用相同的流水线，那么 EX 段需要循环多次来完成FP操作，循环次数取决于操作类型有多个FP功能部件，如果发射出的指令导致结构或数据相关，需暂停,对DLX的扩充,四个功能部件 Integer 部件处理：Loads, Store, Integer ALU操作和Branch FP/Integer 乘法部件：处理浮点数和整数乘法 FP加法器：处理FP加，减和类型转换 FP/Integer除法部件：处理浮点数和

38、整数除法这些功能部件未流水化,扩展的DLX流水线,Latency & Repeat Interval,延时(Latency) 定义为完成某一操作所需的cycle数定义为使用当前指令所产生结果的指令与当前指令间的最小间隔周期数循环间隔（Repeat/Initiation interval）发射相同类型的操作所需的间隔周期数对于EX部件流水化的新的DLX,将部分执行部件流水化后的DLX流水线,新的相关和定向问题,结构冲突增多非流水的Divide部件，使得EX段增长24个cycles 在一个周期内可能有多个寄存器写操作可能指令乱序完成（乱序到达WB段）有可能存在WAW 由于在ID段读，

39、还不会有 WAR 相关乱序完成导致异常处理复杂由于指令的延迟加大导致RAW 相关的stall数增多需要付出更多的代价来增加定向路径,新的结构相关,纵向检查指令所使用的资源第10个cycle，三条指令同时进入MEM，但由于MULTD和ADDD在MEM段没有实际动作，这种情况没有关系第11个cycle，三条指令同时进入WB段，存在结构相关,解决方法,Option 1 在ID段跟踪写端口的使用情况，以便能暂停该指令的发射一旦发现冲突，暂停当前指令的发射 Option 2 在进入MEM或WB段时，暂停冲突的指令，让有较长延时的指令先做，因为较长延时的指令，会更容易引起其他RAW相关，从而导

40、致更多的stalls,关于数据相关,较长延时的流水线，导致数据相关比例增多，stalls数增多,新的冲突源,GPR与FPR间的数据传送造成的数据相关 MOVI2FP and MOVFP2I instructions 如果在ID段进行相关检测，指令发射前须做如下检测：结构相关循环间隔检测确定寄存器写端口是否可用 RAW相关列表所有待写的目的寄存器不发射以待写寄存器做为源寄存器的指令，直到该寄存器值可用 WAW相关仍然使用上述待写寄存器列表不发射那些目的寄存器在待写寄存器列表中的指令，直到对应的待写寄存器值可用(完成WB)。,精确中断与长流水线,例如 DIVF F0,F2,F4 AD

41、DF F10,F10,F8 SUBF F12,F12,F14 ADDF 和SUBF都在DIVF前完成如果DIVF导致异常，会如何？非精确中断 Ideas?,处理中断4种可能的办法,方法1：忽略这种问题，当非精确处理原来的supercomputer的方法但现代计算机对IEEE 浮点标准的异常处理，虚拟存储的异常处理要求必须是精确中断。方法2：缓存操作结果，直到早期发射的指令执行完。当指令运行时间较长时，Buffer区较大 Future file (Power PC620 MIPS R10000) 缓存执行结果，按指令序确认 history file (CYBER 180/990) 尽

42、快确认缓存区存放原来的操作数，如果异常发生，回卷到合适的状态,第3 & 4种方法,以非精确方式处理，用软件来修正为软件修正保存足够的状态让软件仿真尚未执行完的指令的执行例如 Instruction 1 A 执行时间较长，引起中断的指令 Instruction 2, instruction 3, .instruction n-1 未执行完的指令 Instruction n 已执行完的指令由于第n条指令已执行完，中断返回地址为第n+1条指令，如果我们保存所有的流水线的PC值，那么软件可以仿真Instruction1 到Instruction n-1 的执行暂停发射，直到确定先前的指令都

43、可无异常的完成，再发射下面的指令。在EX段的前期确认（MIPS流水线在前三个周期中） MIPS R2K to R4K 以及Pentium使用这种方法,Review lecture7,控制相关概念：减少性能损失的基本方法-转移地址，条件码静态处理：冻结或排空流水线预测分支成功预测分支失败延迟转移异常异常的分类精确中断和非精确中断 DLX中多周期操作的处理对DLX的扩充扩展的DLX流水线新的问题：冲突源增加，异常处理，,DLX流水线的性能,Stalls per FP operation for each major type of FP operation for the

44、 SPEC89 FP benchmarks,平均每条指令的stall数,The stalls occurring for the MIPS FP pipeline for five for the SPEC89 FP benchmarks.,MIPS R4000,实际的 64-bit 机器主频100MHz 200MHz 较深的流水线（级数较多）(有时也称为 superpipelining) 指令集与DLX非常类似,MIPS R4000的8 级整数流水线,IF取指阶段的前半部分；选择PC值，初始化指令cache的访问 IS取指阶段的后半部分，主要完成访问指令cache的操作 RF指令译码，寄存

45、器读取，相关检测以及指令cache命中检测 EX执行，包括：计算有效地址，进行ALU操作，计算分支目标地址和检测分支条件 DF取数据，访问数据cache的前半部分 DS访问数据cache的后半部分 TCtag 检测，确定数据cache是否命中 WBLoad操作和R-R操作的结果写回,需注意的问题,在使用定向技术的情况下，Load 延迟为2个cycles Load和与其相关的指令间必须有2条指令或两个bubbles 原因：load的结果在DS结束时可用分支延迟3个cycles 分支与目标指令间需要3条指令或3个bubbles 原因：目标地址在EX段后才能知道 R4000的流水线中，到ALU输入

46、端有四个定向源 EX/DF, DF/DS, DS/ TC, TC/WB,图示,MIPS R4000 浮点数操作,3个功能部件组成：FP Adder, FP Multiplier, FP Divider 在乘/除操作的最后一步要使用FP Adder FP操作需要2（negate）-112个（square root）cycles 8 kinds of stages in FP units: Stage Functional unit Description A FP adder Mantissa ADD stage D FP divider Divide pipeline stage E FP

47、multiplier Exception test stage M FP multiplier First stage of multiplier N FP multiplier Second stage of multiplier R FP adder Rounding stage S FP adder Operand shift stage U Unpack FP numbers,MIPS FP 流水段,FP Instr 1 2 3 4 5 6 7 8 Add, Subtract U S+A A+R R+S Multiply U E+M M M M N N+A R Divide U A R

48、 D28 D+A D+R, D+R, D+A, D+R, A, R Square root U E (A+R)108 A R Negate U S Absolute value U S FP compare U A R Stages: M First stage of multiplier N Second stage of multiplier R Rounding stage S Operand shift stage U Unpack FP numbers,A Mantissa ADD stage D Divide pipeline stage E Exception test stage,双精度浮点操作指令延迟、初始化间隔和流水段的使用情况,注： Multiply Issue U M M - U E+M M,注：Multiply 的第 2 拍的M - E+M,R4000性能（1）,R4000 性能（2）,基本流水线小结,流水线提高的是指令带宽（吞吐率），而不是单条指令的执行速度相关限制了流水线性能的发挥结构相关：需要更多的硬件资源数据相关：需要定向，编译器调度控制相关：尽早检测条件，计算目标地址，延迟转移，预测增加流水线的级数会增加相关产生的可能性异常

展开阅读全文