[推土机三世华丽转身聚焦AMD,Steamroller性能提升]益智推土机.docx

上传人:scccc 文档编号:13445448 上传时间:2021-12-26 格式:DOCX 页数:4 大小:68.04KB
返回 下载 相关 举报
[推土机三世华丽转身聚焦AMD,Steamroller性能提升]益智推土机.docx_第1页
第1页 / 共4页
[推土机三世华丽转身聚焦AMD,Steamroller性能提升]益智推土机.docx_第2页
第2页 / 共4页
[推土机三世华丽转身聚焦AMD,Steamroller性能提升]益智推土机.docx_第3页
第3页 / 共4页
[推土机三世华丽转身聚焦AMD,Steamroller性能提升]益智推土机.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《[推土机三世华丽转身聚焦AMD,Steamroller性能提升]益智推土机.docx》由会员分享,可在线阅读,更多相关《[推土机三世华丽转身聚焦AMD,Steamroller性能提升]益智推土机.docx(4页珍藏版)》请在三一文库上搜索。

1、推土机三世华丽转身聚焦AMD, Steamroller性能提升益智推土机AMD呕心沥血研发的 "Bulldozer"推土机架构号称X86评价体系数十年来最大的革命,但 是最终的测试最后中却是出师不利,根本无法与Intel同代产品相抗 衡,只能打性价比这闲家,甚至一度寄希望于微软的线程调度补丁, 差异但是打了补丁之后性能也没有明显变化。下一个要期待的就是第 三代推土机核心Steamroller (压路机)了,让我们来做一番解析。推土机前赴后继“Bulldozer”推土机架构折戟沉沙之后也有 很多分析,包括工艺不成熟、软件优化不足等等,最权威的及分析之 后认为是推土机的分支预测

2、测试指令缓存命中设计不够好,导致了架 构失利。在这之后,AMD在今年的中央处理器及APU上开始使用第二代 推土机核心Piledriver,号称IPC (每周期指令)性能比第一代推土 机提高15%, Trinity APU所反映出来的CPU舒适性测试也一度带来惊 喜,但是最终的结果依然是聊胜于无,变化并不大。目前第二代Piledriver核心的主导者首要变化是在功耗降低 上(更可能的原因是GF的32nm SOI工艺成熟了),AMD称激活状态下 平均减少10-20%,所以同样的TDP功耗下频率变高了,这一点在 Trinity APU及FX-8350频率达到4GHz上可以看得出来。Pildriver

3、 的线程调度运行效率也改善了,此外还有指令域取及分支预测命令的 优化,但是可知总体来看性能变化并不大。缓存改进共享的L1指令缓存大小也提高了,不过AMD还是没有具体详 述。推土机使用的是每模块2路64KB L1指令缓存,每个内核势能使 用一路,这样一来推土机的每个内核使用的L1指令缓存就比上用一代 的Phenom还要少,因此Steamroller增大L1指令高速缓存很有意义。 AMD称增大L1容量之后,指令缓存的命中失误率降低了 30%,不过有 关L1数据缓存的设计没有消息。另外,虽然AMD不愿意视之为缓存,但是Steamroller现在 确实增加了一个解码微操作的队列(decoded mic

4、ro-op queue), 一 旦X86指令解码为微操作,寻址和解码操作就储存在这个重复使用队 列里。预取时,只要这个队列里定址有对应的寻址图表,那么 Steamroller的前端就会关停解码单元,只用这个队列来服务预取请求。 这与SNB架构里的decoded uop cache设计类似,总之看起来规模更 小一些罢了。AMD并不愿意公开这个队列里有多少微操作,只说它们对 目前经己的指令命中率来说已经足够大了。L1到L2缓存的接口也提升 了,队列变大,并改善了逻辑性。最后,Steamroller动态在缓存前端引入了静态大小的L2缓 存,可以根据缓存负载及命中率的高低,Steamroller的模块

5、可以1/4 隔断选择使用多少L2缓存,用不到的那些就不会被关闭。AMD认为这 一设计在移动客户端的应用很有意义,比如视频解码时CPU只需要短 时间工作而不需要工作太多的L2缓存应用,这一设计就可以降低功耗, 提升续航时间。可调缓存不会提高性能(有一些连接延迟),它的出 发点主要能耗是增大能耗。Steamrollerz减少L2/L3缓存延迟上没有太大波动,根据 AMD的说法,他们认为推土机架构中的L3缓存延迟过高并不是问题, 至少在修复上没有列入高级上以优先权,而且消费级市场第二级的处 理器的L3缓存通常比较少(Trinity、Llano上直接没有L3缓存), 而服务器应用中对L3缓存延迟又不敏

6、感,因此L3缓存延迟高低并没 有这么太大意义。三代压路机来袭Steamroller 基本沿用 J, Bulldozer/Piledriver 的架构设计, 但在他们的基础上全面结晶。不过按照Intel的Tick-Tock战略来看, Steamroller并不是“Tick (指工艺升级)”,因为28nm Bulk工艺跟 32nm SOI工艺没有太大区别,但是它是“Tock”架构升级,虽然大部 分架构没有改变,从某些角度来看Steamroller是介于工艺转换与架 构升级的两个极端中。推土机最大的问题之一就在于共享了预取和解码单元,Steamroller终于改变了这个弊端,每个模块中的内核子系统甚

7、至有了 自己的4发射指令解码单元,而且每个解码单元都是并行操作而运作 之前那种每周期循环及非。虽然双倍的解码单元并不意味着双倍的性 能进一步提高,因为4发射尖端不可能总是100%利用,但它依然是 Steamroller架构中最多的变化。改用这个设计之后弊端也很明显,电池容量及核心面积都要 上升,但是权衡之后这么做还是值得的,而且这个不足可以从其他方 面弥补,后而还会竭力讲到。Steamroller继承了 Piledriver分支预 测设计,但是性能做了改进,特别是针对服务器负载,而且分支目标 缓冲器更大,这样一来受挫分支预测失败的几率就减少了 20%o执行/浮点单元的改进AMD将Steamro

8、ller模块中的共享浮点单元更加合理化,FPU 型式战斗能力的执行能力并没有变化,但是核心面积总体上降低了。 MMX单元现在可以与128bit FMAC管线共享部分硬件。AMD并没有提供 贷款太多介绍,只是说硬件共享只用于独有的MMX/FMA/FP操作,因此 并不会带来性能惩罚问题。管线资源首先的减少被认为是功耗和面积减少的主要就原因。 整数单元的执行单元不会没有变化,不过其他方面的改进依然提升了 它五方面的性能。Steamroller架构中的整数和浮点单元寄存器文件更 大,虽然AMD没有明确说明有多大。负载操作(2操作)也被压缩了, 因此物理寄存器文件只需要一个即可,这样可以提高寄存器文件的

9、等 效大小。调度窗口 (scheduling windows )的大小也提升了,这样可 以很好地利用现有模块的执行单元资源。存储-载入(Store to load forwarding)好像也有提升,Steamroller在侦测互锁、取消Load操 作及从Store单元读取数据方面做的比前几代更好。未来前瞻这部分主要要说未来的CPU设计了,而且与GPU相关,因为 未来的AMD CPU设计会使用GPU那种高级自动化轻量人体工学及高密 度单元Libraries,简单来说就是AMD未来准备进一步使用数字化的 CPU设计,更少地减少人工电路设计。这种设计低等的好处是功耗和核心面积更低,在32nm推土机 FPU单元上使用了这种设计之后功耗和面积减少了 30%o不过缺点也不 是没有,频率不够高,自动化的设计达不到人工电路设计的频率,不 过AMD认为这也是值得付出的代价,虽然达不到最高频率,但是每个 操作的功耗会快捷键降低15-30%o Steamroller上还有点看不到太多 高度自动化设计,不过2014年的Excavator处理器上就会看到。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1