流水线技术.ppt

上传人:少林足球 文档编号:4206606 上传时间:2019-10-27 格式:PPT 页数:111 大小:1.81MB
返回 下载 相关 举报
流水线技术.ppt_第1页
第1页 / 共111页
流水线技术.ppt_第2页
第2页 / 共111页
流水线技术.ppt_第3页
第3页 / 共111页
流水线技术.ppt_第4页
第4页 / 共111页
流水线技术.ppt_第5页
第5页 / 共111页
点击查看更多>>
资源描述

《流水线技术.ppt》由会员分享,可在线阅读,更多相关《流水线技术.ppt(111页珍藏版)》请在三一文库上搜索。

1、第三章 流水线技术,3.1 流水线的基本概念 3.2 DLX的基本流水线 3.3 流水线的相关 3.4 异常处理 3.5 DLX中多周期操作的处理 3.6 MIPS R4000流水线,Review:性能评测,平均CPI? 每类指令的使用频度,Type CPIi for type Frequency CPIi x freqIi Arith/Logic 4 40% 1.6 Load 5 30% 1.5 Store 4 10% 0.4 branch 3 20% 0.6 Average CPI: 4.1,是否可以使 CPI 4.1?,在一条指令执行过程中下图有许多空闲部件 可以让指令重叠执行?,洗衣为

2、例 Ann, Brian, Cathy, Dave 每人进行洗衣的动作: wash, dry, and fold washer需要 30 minutes Dryer 需要 40 minutes “Folder” 需要 20 minutes,3.1 流水线的基本概念,Sequential Laundry,顺序完成这些任务需要 6 小时 如果采用流水作业, 需要多长时间?,30,40,20,30,40,20,30,40,20,30,40,20,6 PM,7,8,9,10,11,Midnight,T a s k O r d e r,Time,流水线作业: 尽可能让任务重叠进行,流水作业完成四人的洗衣

3、任务只需要 3.5 hours,6 PM,7,8,9,10,11,Midnight,T a s k O r d e r,Time,流水线技术要点,流水线技术并不能提高单个任务的执行效率,它可以提高整个系统的吞吐率 流水线中的瓶颈最慢的那一段 多个任务同时执行,但使用不同的资源 其潜在的加速比流水线的级数 流水段所需时间不均衡将降低加速比 流水线存在装入时间和排空时间,使得加速比降低 由于存在相关问题,会导致流水线停顿,指令流水线:CPU执行大量的指令,指令吞吐率非常重要 DLX 的指令格式,3.2 DLX的基本流水线,所有指令相同长度 在指令格式中寄存器位于同一位置 只有Loads和Store

4、s可以对存储器操作,DLX数据通路一种简单实现,Memory Access,Write Back,Instruction Fetch,Instr. Decode Reg. Fetch,Execute Addr. Calc,L M D,MUX,Memory,Reg File,MUX,MUX,Data Memory,MUX,Sign Extend,Zero?,Next SEQ PC,Next PC,WB Data,RD,RS1,RS2,Imm,基本操作(Step 1 & 2),Step 1 - IF IR - MemPC - fetch the next instruction from memo

5、ry NPC - PC + 4 - compute the new PC Step 2 - ID - instruction decode and register fetch step A - RegsIR610 B - RegsIR1116 可能读取的寄存器值没有用,但没有关系,译码后如果无用,以后操作就不用 Imm (IR16)16 # IR16-31,基本操作Step 3, 执行阶段,根据译码的结果,有四种情况 Memory Reference ALUOutput - A + (IR16)16 # IR1631- effective address SMD - B - data to

6、be written if it is a STORE - SMD (store mem data) = MDR Register - Register ALU instruction ALUOutput - A op B Register - Immediate ALU instruction ALUOutput - A op (IR16)16 # IR1631) Branch/Jump ALUOutput - NPC + (IR16)16 # IR1631 cond - A op 0 - for conditional branches As value is the condition

7、base (= for BEQZ) 在简单的 Load-Store机器中,不存在即需要计算存储器地址,指令地址,又要进行ALU运算的指令,因此可以将计算有效地址与执行合二为一,在一个流水段中进行。,Step 4 & Step5,Step 4 MEM - memory access/branch completion memory reference LMD - MemALUOutput - if its a load; LMD (load memory data) = MDR 或 MemALUOutput - SMD branch if (cond) then PC - ALUOutput e

8、lse PC - NPC for Jumps the condition is always true Step 5 WB - write back Reg - Reg ALU RegsIR1620 - ALUOutput Reg - Immed ALU RegsIR1115 - ALUOutput Load RegsIR1115 - LMD,这种结构是否可行,模型是正确的,但没有优化 还有其他选择 指令和数据存储器是否可以分开 采用一个长周期还是5个短周期实现,单周期和多周期控制,多周期控制可实现指令重叠执行,DLX的基本流水线,假设流水线周期为每步所花费的时间,为什么用流水线?,假设执行1

9、00条指令 单周期机器 45 ns/cycle x 1 CPI x 100 inst = 4500 ns 多周期机器 10 ns/cycle x 4.6 CPI (due to inst mix) x 100 inst = 4600 ns 理想流水线机器 10 ns/cycle x (1 CPI x 100 inst + 4 cycle drain) = 1040 ns,为什么用流水线(cont.)?资源利用率高,I n s t r. O r d e r,Time (clock cycles),Inst 0,Inst 1,Inst 2,Inst 4,Inst 3,流水线正常工作的基本条件,各段

10、间需要使用寄存器文件保存当前段传送到下一段的数据和控制信息 存储器带宽是非流水的5倍,新的DLX数据通路(图3.12 Page 88),Review lecture5,流水线技术要点 流水线技术并不能提高单个任务的执行效率,它可以提高整个系统的吞吐率 流水线中的瓶颈最慢的那一段 多个任务同时执行,但使用不同的资源 其潜在的加速比流水线的级数 流水段所需时间不均衡将降低加速比 流水线存在装入时间和排空时间,使得加速比降低 由于存在相关问题,会导致流水线停顿 流水线正常工作的基本条件 增加寄存器文件保存当前段传送到下一段的数据和控制信息 存储器带宽是非流水的5倍,新的DLX数据通路(图3.12 P

11、age 88),在新的Datapath下各段的操作,IF IF/ID.IR MemPC; IF/ID.NPC,PC (if (EX/MEM.opcode = branch) ,Load or store instruction EX/MEM.IR ID/EX.IR EX/MEM.ALUOutput ID/EX.A + ID/EX.Imm EX/MEM.B ID/EX.B Branch instruction EX/MEM.ALUOutput ID/EX.NPC + (ID/EX.Imm 2) EX/MEM.cond (ID/EX.A = 0); MEM ALU Instruction MEM/

12、WB.IR EX/MEM.IR MEM/WB.ALUOutput EX/MEM.ALUOutput; Load or store instruction MEM/WB.IR EX/MEM.IR; MEM/WB.LMD MemEX/MEM.ALUOutput; or MemEX/MEM.ALUOutput EX/MEM.B; (store),WB ALU instruction RegsMEM/WB.IRrd MEM/WB.ALUOutput; or RegsMEM/WB.IRrt MEM/WB.ALUOutput; For load only RegsMEM/WB.IRrt MEM/WB.LM

13、D,简化的 Pipelining(图3.11 Page 87),I n s t r. O r d e r,Time (clock cycles),流水线性能分析,基本度量参数:吞吐率,加速比,效率 吞吐率: 单位时间内流水线所完成的任务数或输出结果数量 最大吞吐率:流水线在连续流动达到稳定状态后所得到的吞吐率。,最大吞吐率取决于流水线中最慢的一段所需的时间,最慢的一段是性能的瓶颈 解决办法: 串联:将最慢段进一步划分 并联:增加部件,实际吞吐率:假设m段,完成n个任务,单位时间所实际完成的任务数。 加速比: m段流水线的速度与等功能的非流水线的速度之比。 效率:流水线的设备利用率。 流水线性能

14、分析举例 例3.1 p94,例3.1时空图,review: Pipelining,指令流水线通过指令重叠减小 CPI 充分利用数据通路 当前指令执行时,启动下一条指令 其性能受限于花费时间最长的段 检测和消除相关 如何有利于流水线技术的应用 所有的指令都等长 只有很少的指令格式 只用Load/Store来进行存储器访问,review 流水线性能分析,流水线技术应用的难度何在? :相关问题,吞吐率、加速比、效率之间的关系,3.3 流水线的相关,相关的基本概念 结构相关 数据相关 控制相关,采用流水线技术带来的新的问题,流水线相关 结构相关:同一时间两种方式使用同一资源 例如 washer/dry

15、er 合在一起, IM和ID合在一起 控制相关: 试图在条件未评估之前,就做决定 例如 branch instructions 数据相关:在数据未准备好之前,就需要使用数据 当前指令的执行需要上一条指令的结果 使用等待策略总是可以解决相关 流水线控制必须能检测相关,否则由软件设计来避免 采用相应操作解决相关 (or 等待),Mem,单个存储器引起的结构相关,I n s t r. O r d e r,Time (clock cycles),Load,Instr 1,Instr 2,Instr 3,Instr 4,Reg,Mem,Reg,Reg,Mem,Reg,Detection is easy

16、in this case! (right half highlight means read, left half write),消除结构相关(图3.18 Page 98),结构相关对性能的影响,例如: 如果每条指令平均访存1.3 次,而每个时钟周期只能访存一次,那么 在其他资源100利用的前提下,平均 CPI 1.3,流水线的加速比计算,For simple RISC pipeline, CPI = 1:,例如: Dual-port vs. Single-port,机器A: Dual ported memory (“Harvard Architecture”) 机器 B: Single po

17、rted memory, 但其流水线实现时比非流水实现时钟频率快1.05 倍 Ideal CPI = 1 for both,Load指令CPI = 2 所执行的指令中Loads指令占 40% SpeedUpA = Pipeline Depth/(1 + 0) x (clockunpipe/clockpipe) = Pipeline Depth Cycle Timeunpipeb = 1.05 CycleTimepipe SpeedUpB= Pipeline Depth/(1 + 0.4 x 1) x (cycleTimeunpipe/(cycletimepipe) = (Pipeline De

18、pth/1.4) x 1.05 = 0.75 x Pipeline Depth SpeedUpA / SpeedUpB = Pipeline Depth/(0.75 x Pipeline Depth) = 1.33 Machine A 比Machine B快,数据相关问题(图3.20 Page 100),Time (clock cycles),写后读相关(Read After Write (RAW) InstrJ tries to read operand before InstrI writes it 由于实际的数据交换需求而引起的,三种基本的数据相关,I: add r1,r2,r3 J:

19、sub r4,r1,r3,读后写相关Write After Read (WAR) InstrJ writes operand before InstrI reads it 编译器编写者称之为“anti-dependence”(反相关),是由于重复使用寄存器名“r1”引起的. DLX 5 段基本流水线不会有此类相关因为: 所有的指令都是5段, 并且 读操作总是在第2段,而 写操作在第5段,写后写相关(Write After Write (WAW)) InstrJ writes operand before InstrI writes it. 编译器编写者称之为“output dependence

20、” ,也是由于重复使用寄存器名 “r1”引起的. 在DLX 5段基本流水线中,也不会发生。因为 所有指令都是5段,并且写操作都在第5段 在后面的复杂的流水线中我们将会看到 WAR 和WAW 相关,Review -流水线技术要点,流水线技术并不能提高单个任务的执行效率,它可以提高整个系统的吞吐率 多个任务同时执行,但使用不同的资源 流水线性能分析:吞吐率、加速比、效率 流水线中的瓶颈最慢的那一段 其潜在的加速比流水线的级数 流水段所需时间不均衡将降低加速比 流水线存在装入时间和排空时间,使得加速比降低 由于存在相关问题,会导致流水线停顿 结构相关、数据相关和控制相关,采用定向技术避免数据相关(图

21、3.21 Page 102),采用定向技术仍然存在相关(图3.23 Page 153),DMem,Try producing fast code for a = b + c; d = e f; assuming a, b, c, d ,e, and f in memory. Slow code: LW Rb,b LW Rc,c ADD Ra,Rb,Rc SW a,Ra LW Re,e LW Rf,f SUB Rd,Re,Rf SW d,Rd,采用软件方法避免数据相关,Fast code: LW Rb,b LW Rc,c LW Re,e ADD Ra,Rb,Rc LW Rf,f SW a,Ra

22、SUB Rd,Re,Rf SW d,Rd,流水线相关检测部件能检测到的相关情况,review: Pipelining,指令流水线通过指令重叠减小 CPI 充分利用数据通路 当前指令执行时,启动下一条指令 其性能受限于花费时间最长的段 检测和消除相关 如何有利于流水线技术的应用 所有的指令都等长 只有很少的指令格式 只用Load/Store来进行存储器访问,review 流水线性能分析,流水线技术应用的难度何在? :相关问题,吞吐率、加速比、效率之间的关系,Review -流水线技术要点,流水线技术并不能提高单个任务的执行效率,它可以提高整个系统的吞吐率 多个任务同时执行,但使用不同的资源 流水

23、线性能分析:吞吐率、加速比、效率 流水线中的瓶颈最慢的那一段 其潜在的加速比流水线的级数 流水段所需时间不均衡将降低加速比 流水线存在装入时间和排空时间,使得加速比降低 由于存在相关问题,会导致流水线停顿 结构相关、数据相关和控制相关,采用定向技术硬件所需做的修改,定向源为R-R ALU操作的定向比较判断,定向源为ALUimm操作的定向比较判断,定向源为Load操作的比较判定,review lecture 6,流水线技术应用的难度何在? :相关问题,吞吐率、加速比、效率之间的关系,Review lecture 6 (cont.),结构相关 概念:由于争用资源而引起的 解决办法 数据相关 概念:

24、由于存在对相同单元的读写引起的。 解决办法 硬件:定向技术(forwarding) 软件: 指令级调度 控制相关 概念:由于控制类指令引起的 解决办法 ?,控制相关,问题更复杂,分支需要解决两个问题 分支目标地址(转移成功意谓着PC值不是 PC+4) CC是否有效,这两点在DLX中都在流水线的靠后段中确定 译码在ID段后,此时取进来的指令可能是错误的指令 对于简单的DLX流水线 - 3 cycle branch penalty 有效地址在EX段才能确定 条件是否为真在MEM段 因此有3个stall 流水线的时空图,回顾DLX数据通路,减少分支延时的方法,修改数据通路 使得目标地址和分支条件尽早

25、确定,其中之一尽早确定是没有用的 判断是否为0可以在ID段确定 使用另一个加法器计算 可以在ID段计算BTA(分支目标地址) 即在ID段形成下一条指令地址,两种可能(BTA, PC+4) 选择哪一个取决于ID段确定的CC 必要时使用互锁机制来插入Stall 设计合适的ISA e.g. BNEZ, BEQZ on DLX 使得CC可以在ID段确定 调度一些指令放入分支的延迟槽中 统计分支成功和失败的情况,提高预测精度,新的DLX数据通路,改进后流水线的分支操作,四种可能的解决冲突的方法,#1: Stall 直到分支方向确定 #2: 预测分支失败 直接执行后继指令 如果分支实际情况为分支成功,则撤

26、销流水线中的指令对流水线状态的更新 DLX分支指令平均47%为分支失败 由于PC+4已经计算出来,因此可以用它来取下一条指令 #3: 预测分支成功 平均53% DLX 分支为分支成功 但分支目标地址在ID段才能计算出目标地址 DLX 还是有1个 cycle branch penalty,四种可能的解决冲突的方法,#4: 延迟转移 定义分支发生在一系列指令之后 branch instruction sequential successor1 sequential successor2 sequential successorn branch target if taken 5级流水只需要一个延迟

27、槽就可以确定目标地址和确定条件 DLX 使用这种方式,延迟转移,从何处选择指令来填充延迟槽? 分支指令之前的指令:最好 从分支目标地址处取: 在分支成功可能性大时,这种策略较好 从分支失败处调度:仅在分支失败时 编译器可以有效的调度一个延迟槽 如果提供取消分支时, 编译器可以调度更多的指令填入延迟槽,评估减少分支策略的效果,Scheduling Branch CPI speedup v. speedup v. scheme penalty unpipelined stall Stall pipeline 3 1.42 3.5 1.0 Predict taken 1 1.14 4.4 1.26

28、Predict not taken 1 1.09 4.5 1.29 Delayed branch 0.5 1.07 4.6 1.31 1.14 = 1 + 1*14%*100% 1.09 = 1+1*14%*65% 1.07 = 1+ 0.5*14% Conditional & Unconditional = 14%, 65% change PC,小结: Pipelining,通过指令重叠减小 CPI 充分利用数据通路 当前指令执行时,启动下一条指令 其性能受限于花费时间最长的段 检测和消除相关 如何有利于流水线技术的应用 所有的指令都等长 只有很少的指令格式 只用Load/Store来进行存

29、储器访问 难度何在? 相关问题,Quiz,流水线的成本(cost)可以用c+k*h估算,其中 c为所有功能段本身的总成本,h为段间锁存器成本,k为段数。流水线的性价比可以定义为 PCR = Throughput/(c+k*h), 其中Throughput = 1/t, t为t_latch+T/k, t_latch为锁存器的延迟时间, T为在非流水线的机器上采用顺序执行方式完成一个任务所花费的总时间。 试推导出使得PCR最大化的最优段数k_opt的表达式。,3.4 异常处理,流水线使得系统的吞吐率提高 问题:由于相关会影响系统性能的发挥 更严重的问题:异常 Why? 多级流水多周期指令 异常可以

30、发生在任何地方 指令序与异常序可能不同 必须按指令序处理异常 采用何种策略取决于异常的类型,异常的类型,I/O device request invoking an OS service from a user program e.g. via an unimplemented instruction on a Mac tracing instruction execution breakpoint integer or FP arithmetic error such as overflow page fault misaligned memory access memory protect

31、ion violation undefined instruction hardware malfunction - like parity or ECC error power failure,异常响应请求的种类,Synchronous vs. Asynchronous synchronous caused by a particular instruction asynchronous - external devices and HW failures User requested vs. Coerced requested is predictable and can happen a

32、fter the instruction User maskable vs. user non-maskable e.g. arithmetic overflow on some machines is user maskable Within vs. Between instructions within = synchronous, key is that completion is prevented some asynchronous are also within Resume vs. Terminate program implications for how much state

33、 must be preserved,例如,最困难的问题,异常发生在指令中,并且要求恢复执行 要求=流水线必须安全地 shut down PC必须保存 如果重新开始的是一条分支指令,它需要重新执行 这意味着条件码状态必须没有改变 在DLX中的处理步骤 强制trap指令在下一个IF段进入流水线 封锁引起故障的指令的所有写操作和流水线中后继指令的写操作 让所有前序指令执行完(如果能) 保存重新执行时的地址(PC) PC 或 PC + 1 调用OS处理异常,考虑延迟转移时,假设有两个延迟槽的分支 I Branch Instr1 I+1 Delay instr1 I+2 Delay Instr2 I+

34、3 inst I+4 inst 假设branch指令是好的 第1个延迟指令引起缺页中断 第2条指令封锁 异常处理后,缺省的恢复点是第一条延迟指令 不会有Branch指令 因此需要保存的PC值不止一个,根据具体情况进行恢复,精确中断与非精确中断,引起异常的指令前面的指令都已执行完,故障后的指令可以重新从故障点后执行 理想情况,引起故障的指令没有改变机器的状态 要正确的处理这类异常请求,必须保证故障指令不产生副作用 在有些机器上,浮点数异常 流水线段数多,在发现故障前,故障点后的指令就已经写了结果,在这种情况下,必须有办法处理。 当今很多高性能计算机,Alpha 21164,MIPSR10000等

35、支持精确中断,但精确模式要慢10倍,一般用在代码调试时,很多系统要求精确中断模式,如IEEE FP标准处理程序,虚拟存储器等。 精确中断对整数流水线而言,不是太难实现,DLX中的异常,IF page fault, misaligned address, memory protection violation ID undefined or illegal opcode EX arithmetic exception MEM page fault, misaligned address, memory protection violation WB none,Review,控制相关 概念: 减少

36、性能损失的基本方法 冻结或排空流水线 预测分支成功 预测分支失败 延迟转移 异常 异常的分类 精确中断和非精确中断,Review- 相关的处理,结构相关 概念:由于争用资源而引起的 解决办法 数据相关 概念:由于存在实际的通信,而引起的 解决办法: 硬件:定向技术(forwarding) 软件: 指令级调度 控制相关 概念:由于控制类指令引起的 解决办法 ?,Review (续),控制相关 概念: 减少性能损失的基本方法-转移地址,条件码 静态处理: 冻结或排空流水线 预测分支成功 预测分支失败 延迟转移 异常 异常的分类 精确中断和非精确中断,3.5 DLX中多周期操作的处理,问题 浮点操作

37、在12个cycles完成是不现实的,一般要花费较长时间 在DLX中如何处理 在1到2个cycles时间内完成的处理方法 采用较慢的时钟源,或 在FP部件中延迟其EX段 现假设FP指令与整数指令采用相同的流水线,那么 EX 段需要循环多次来完成FP操作,循环次数取决于操作类型 有多个FP功能部件,如果发射出的指令导致结构或数据相关,需暂停,对DLX的扩充,四个功能部件 Integer 部件处理:Loads, Store, Integer ALU操作和Branch FP/Integer 乘法部件:处理浮点数和整数乘法 FP加法器:处理FP加,减和类型转换 FP/Integer除法部件:处理浮点数和

38、整数除法 这些功能部件未流水化,扩展的DLX流水线,Latency & Repeat Interval,延时(Latency) 定义为完成某一操作所需的cycle数 定义为使用当前指令所产生结果的指令与当前指令间的最小间隔周期数 循环间隔(Repeat/Initiation interval) 发射相同类型的操作所需的间隔周期数 对于EX部件流水化的新的DLX,将部分执行部件流水化后的DLX流水线,新的相关和定向问题,结构冲突增多 非流水的Divide部件,使得EX段增长24个cycles 在一个周期内可能有多个寄存器写操作 可能指令乱序完成(乱序到达WB段)有可能存在WAW 由于在ID段读,

39、还不会有 WAR 相关 乱序完成导致异常处理复杂 由于指令的延迟加大导致RAW 相关的stall数增多 需要付出更多的代价来增加定向路径,新的结构相关,纵向检查指令所使用的资源 第10个cycle,三条指令同时进入MEM,但由于MULTD和ADDD在MEM段没有实际动作,这种情况没有关系 第11个cycle,三条指令同时进入WB段,存在结构相关,解决方法,Option 1 在ID段跟踪写端口的使用情况,以便能暂停该指令的发射 一旦发现冲突,暂停当前指令的发射 Option 2 在进入MEM或WB段时,暂停冲突的指令,让有较长延时的指令先做,因为较长延时的指令,会更容易引起其他RAW相关,从而导

40、致更多的stalls,关于数据相关,较长延时的流水线,导致数据相关比例增多,stalls数增多,新的冲突源,GPR与FPR间的数据传送造成的数据相关 MOVI2FP and MOVFP2I instructions 如果在ID段进行相关检测,指令发射前须做如下检测: 结构相关 循环间隔检测 确定寄存器写端口是否可用 RAW相关 列表所有待写的目的寄存器 不发射以待写寄存器做为源寄存器的指令,直到该寄存器值可用 WAW相关 仍然使用上述待写寄存器列表 不发射那些目的寄存器在待写寄存器列表中的指令,直到对应的待写寄存器值可用(完成WB)。,精确中断与长流水线,例如 DIVF F0,F2,F4 AD

41、DF F10,F10,F8 SUBF F12,F12,F14 ADDF 和SUBF都在DIVF前完成 如果DIVF导致异常,会如何? 非精确中断 Ideas?,处理中断4种可能的办法,方法1:忽略这种问题,当非精确处理 原来的supercomputer的方法 但现代计算机对IEEE 浮点标准的异常处理,虚拟存储的异常处理要求必须是精确中断。 方法2:缓存操作结果,直到早期发射的指令执行完。 当指令运行时间较长时,Buffer区较大 Future file (Power PC620 MIPS R10000) 缓存执行结果,按指令序确认 history file (CYBER 180/990) 尽

42、快确认 缓存区存放原来的操作数,如果异常发生,回卷到合适的状态,第3 & 4种方法,以非精确方式处理,用软件来修正 为软件修正保存足够的状态 让软件仿真尚未执行完的指令的执行 例如 Instruction 1 A 执行时间较长,引起中断的指令 Instruction 2, instruction 3, .instruction n-1 未执行完的指令 Instruction n 已执行完的指令 由于第n条指令已执行完,中断返回地址为第n+1条指令,如果我们保存所有的流水线的PC值,那么软件可以仿真Instruction1 到Instruction n-1 的执行 暂停发射,直到确定先前的指令都

43、可无异常的完成,再发射下面的指令。 在EX段的前期确认(MIPS流水线在前三个周期中) MIPS R2K to R4K 以及Pentium使用这种方法,Review lecture7,控制相关 概念: 减少性能损失的基本方法-转移地址,条件码 静态处理: 冻结或排空流水线 预测分支成功 预测分支失败 延迟转移 异常 异常的分类 精确中断和非精确中断 DLX中多周期操作的处理 对DLX的扩充扩展的DLX流水线 新的问题:冲突源增加,异常处理,,DLX流水线的性能,Stalls per FP operation for each major type of FP operation for the

44、 SPEC89 FP benchmarks,平均每条指令的stall数,The stalls occurring for the MIPS FP pipeline for five for the SPEC89 FP benchmarks.,MIPS R4000,实际的 64-bit 机器 主频100MHz 200MHz 较深的流水线(级数较多)(有时也称为 superpipelining) 指令集与DLX非常类似,MIPS R4000的8 级整数流水线,IF取指阶段的前半部分;选择PC值,初始化指令cache的访问 IS取指阶段的后半部分,主要完成访问指令cache的操作 RF指令译码,寄存

45、器读取,相关检测以及指令cache命中检测 EX执行,包括:计算有效地址,进行ALU操作,计算分支目标地址和检测分支条件 DF取数据,访问数据cache的前半部分 DS访问数据cache的后半部分 TCtag 检测,确定数据cache是否命中 WBLoad操作和R-R操作的结果写回,需注意的问题,在使用定向技术的情况下,Load 延迟为2个cycles Load和与其相关的指令间必须有2条指令或两个bubbles 原因:load的结果在DS结束时可用 分支延迟3个cycles 分支与目标指令间需要3条指令或3个bubbles 原因:目标地址在EX段后才能知道 R4000的流水线中,到ALU输入

46、端有四个定向源 EX/DF, DF/DS, DS/ TC, TC/WB,图示,MIPS R4000 浮点数操作,3个功能部件组成:FP Adder, FP Multiplier, FP Divider 在乘/除操作的最后一步要 使用FP Adder FP操作需要2(negate)-112个(square root)cycles 8 kinds of stages in FP units: Stage Functional unit Description A FP adder Mantissa ADD stage D FP divider Divide pipeline stage E FP

47、multiplier Exception test stage M FP multiplier First stage of multiplier N FP multiplier Second stage of multiplier R FP adder Rounding stage S FP adder Operand shift stage U Unpack FP numbers,MIPS FP 流水段,FP Instr 1 2 3 4 5 6 7 8 Add, Subtract U S+A A+R R+S Multiply U E+M M M M N N+A R Divide U A R

48、 D28 D+A D+R, D+R, D+A, D+R, A, R Square root U E (A+R)108 A R Negate U S Absolute value U S FP compare U A R Stages: M First stage of multiplier N Second stage of multiplier R Rounding stage S Operand shift stage U Unpack FP numbers,A Mantissa ADD stage D Divide pipeline stage E Exception test stage,双精度浮点操作指令延迟、初始化间隔和流水段的使用情况,注: Multiply Issue U M M - U E+M M,注:Multiply 的 第 2 拍的M - E+M,R4000性能(1),R4000 性能(2),基本流水线小结,流水线提高的是指令带宽(吞吐率),而不是单条指令的执行速度 相关限制了流水线性能的发挥 结构相关:需要更多的硬件资源 数据相关:需要定向,编译器调度 控制相关:尽早检测条件,计算目标地址,延迟转移,预测 增加流水线的级数会增加相关产生的可能性 异常

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1