OracleExadata技术详解.html.pdf

资源描述

《OracleExadata技术详解.html.pdf》由会员分享，可在线阅读，更多相关《OracleExadata技术详解.html.pdf（207页珍藏版）》请在三一文库上搜索。

1、前言为什么要写这本书 2010年我刚接触Exadata的时候，当时国内还只有屈指可数的几个客户，Exadata的版本还是第二版V2。短短四年多时间过去了，国内Exadata一体机的客户已经可以使用千位来计数了，而且每年还在以较大幅度增长。Oracle Exadata一体机的市场占有率已经远远甩开竞争对手，稳坐国内数据库一体机市场的头把交椅，其产品发布的速度也比较惊人，2015年初已经发布了第六代数据库一体机产品 X5。在科技领域，近几年有几个趋势越来越明显。第一个趋势是集成化，也就是我们所说的软硬件一体化。将软件与硬件结合起来，一并创造最佳的体验。苹果公司引领了智能手机软硬件一体化的趋

2、势，而特斯拉在智能汽车方面创造了另外一个神话，同时其他各行各业的领军人物也正以相同的方式颠覆着传统的孤岛模式。抓住了软硬件一体化，就抓住了下一个商业模式的趋势。Oracle公司也正是这样做的，除了在传统强项数据库领域的深耕，同时还顺势拓宽了其他领域的集成系统，推出了中间件一体机Exalogic、数据分析一体机Exalytics、备份一体机ZDLRA，以及面向中小型企业的数据库一体机ODA。第二个趋势是云化。经过几年的迅猛发展，云计算已经从最初的漂浮不定到现在逐步开始落地。现在业界谁都在抢占云计算的制高点。除了传统的SaaS、PaaS和IaaS，Oracle又提出了DBaaS，即数据库即

3、服务，并且将其思想精髓逐步地融入Oracle数据库产品与Exadata一体机，省略了大量纷繁复杂的部署流程，向用户提供“开箱即用”的云。第三个趋势是开放化。小型机、中型机在企业级信息系统基础架构中日渐式微已是不争的事实。大量用户已经完成了从小型机运行专有程序到x86_64架构运行通用程序的转变，当然还有更多的正在向其靠拢。这主要得益于x86_64的开放性，使得运行维护的成本大大降低，同时x86_64平台的稳定性与性能的提升，也大大促进了这一趋势的蔓延。Oracle Exadata一体机构建于x86_64平台，很多用户的应用程序不需要任何修改就可以无缝迁移到Exadata。在本书之前，国

4、内市场上已经有译作深入理解Oracle Exadata一书。而本书作为国内第一本关于Oracle Exadata一体机的中文教程，更多偏重于实践方面，同时加入了更多V2版本以后的新内容。读者对象这里根据需求划分出了一些能使用Exadata的用户团体：数据库管理员；应用开发者；数据库开发者；存储管理员；系统架构师；数据库兴趣爱好者。如何阅读本书本书假定读者对关系型数据库，尤其是Oracle数据库有一定程度的了解，否则有可能对书中的某些知识点的介绍感到困惑。如果你是一名初学者，建议先学习Oracle数据库的一些基础知识。本书共包括16章，可以将其大致分为三个部分。第一部分为

5、基础篇，包括第1章到第5章，这些章节主要介绍了Oracle Exadata一体机的配置、架构、安装、升级，帮助读者了解一些基础知识，对Exadata有一定程度的认识。第二部分为功能篇，包括第6章到第14章，这些章节详细介绍了Oracle Exadata一体机的特性以及与Exadata相关的数据迁移、并行、安全加固、备份与恢复等课题。在这部分中，每个章节都是独立的，没有严格意义上的依赖关系，所以读者可以任意选其中自己感兴趣的话题进行阅读。第三部分为实战篇，包括第15章与第16章，这两个章节主要是针对Exadata一体机管理员在维护和使用过程中常见的场景以及问题进行解答，涉及Exadata日

6、常运维的方方面面，并且其中的每一节都是互相独立的。附录A为Exadata默认密码一览表。附录B为缩略语中英文对照表。勘误和支持由于本人水平有限，编写时间也很仓促，所以书中难免会出现错误或者不全面的地方，在此恳请读者批评斧正。你可以将书中的错误发布在Bug勘误表页面中，同时，书中的源文件也将发布在华章公司的网站上，并及时更新相应的功能。如果你有任何意见或问题，也欢迎发送邮件至我的邮箱，我很期待听到你们的真挚反馈。致谢感谢Oracle公司内部Exadata邮件列表的许多专家对本人提出问题的耐心解答。感谢我在Oracle中国公司同事的无私帮助，尤其是来自高级服务团队同事的帮助。他们包

7、括胡奇虎、陈伟、王劲松、顾水林、罗敏、孙建光、蒋健、祁琪、张毅宁、彭玉周、吕春雷、王辉、郭忠伟、王福龙、林宇泽、蔡磊、刘建军、张润平、杜平、刘相兵、金丹、张大鹏、程飞、沈杰、李纯香、郑伯欧等。同时也感谢Oracle社区和Oracle上海用户组的大力支持，需要额外感谢的人包括罗炳森、徐浩然、李德鹏、刘斌、赵欣等。感谢Oracle美国总部研发团队的Michael Chen，谢谢你提供的Exadata测试环境，让我得以验证本书中的案例。感谢机械工业出版社华章公司的编辑杨绣国老师，你的专业与细心深深地感染了我。同时感谢你对我因工作繁忙而将交稿日期一再推迟的理解。最后要感谢我的父母与家人，为了

8、编写本书，我牺牲了大量本该陪伴你们的时间，正是你们的理解与鼓励使我能够顺利完成此书。谨以此书献给那些工作多年还依然热爱技术，奋战在技术一线的朋友们。李亚 2015年7月于上海第1章 Exadata概述 1.1 Exadata的诞生 Exadata是什么？几乎每个新接触Exadata的人都会问到这个问题。权威百科全书维基百科（wikipedia）对Exadata的定义为：Exadata是Oracle公司推出的针对联机事务处理系统（OLTP）和联机分析处理系统（OLAP）的软件和硬件结合的Oracle数据库一体机。事实上，我们很难用几句话简单地概括Exadata的所有特征。因为Exadat

9、a涉及的知识面非常广，不仅包括数据库，还包括主机、存储、操作系统、网络等各个方面。而本书的所有内容都将围绕着Exadata进行，相信读者在读完本书以后，会对Exadata有一个更加全面而深刻的理解。在此之前，首先还是要介绍Exadata的背景知识。Exa读音为“艾克萨”，表示一个单位，度量是10的18次方。一般认为，Exadata这个名字源自于Oracle的竞争对手“Teradata”（中文名为天睿）。 Teradata成立于1979年，是美国前十大上市软件公司之一，它于2007年从其母公司NCR独立出来，是世界上最早提供数据仓库一体机的厂商。事实上，从名字上就可以看出它们之间的一些渊源t

10、era 表示10的12次方。Exadata最初的目标就是要超越Teradata在数据仓库一体机方面的垄断地位，在尽管小众但是利润率很高的一体机市场分得一杯羹。当然Oracle是一家“野心勃勃”的公司，超越 Teradata并不是它的最终目标，但是Exadata这个名字却一直被沿用下来。与Exadata的诞生密切相关的另外一家巨头公司是Oracle公司的启蒙老师IBM。很早的时候，IBM就将其数据库与硬件、操作系统及自家的服务作为一个整体打包推销给其客户。例如DB2 for zOS以及 DB2 for OS/400。Oracle公司对这片市场自然是“垂涎已久”，按照Oracle公司向来“咄咄逼

11、人”的架势，免不了会朝这个领域发力，挑战IBM公司的霸主地位，抢占高端市场。另外，不得不提到的一个关键性人物就是Larry Ellison的老友、也是他曾经的老邻居Steve Jobs。iPhone的成功不仅在电子消费品市场开创了一个崭新的时代，还给这个浑浑噩噩的市场注入了一剂强心剂，也彻底颠覆了行业中盛行的企业级硬件市场为不盈利的鸡肋这一想法。同时还给很多产品经理上了宝贵的一课：单凭卖硬件不足以获得很高的利润，只有把软硬件结合起来，才能获得更好的用户体验，从而获取更高的利润。第1章 Exadata概述 1.1 Exadata的诞生 Exadata是什么？几乎每个新接触Exadata的

12、人都会问到这个问题。权威百科全书维基百科（wikipedia）对Exadata的定义为：Exadata是Oracle公司推出的针对联机事务处理系统（OLTP）和联机分析处理系统（OLAP）的软件和硬件结合的Oracle数据库一体机。事实上，我们很难用几句话简单地概括Exadata的所有特征。因为Exadata涉及的知识面非常广，不仅包括数据库，还包括主机、存储、操作系统、网络等各个方面。而本书的所有内容都将围绕着Exadata进行，相信读者在读完本书以后，会对Exadata有一个更加全面而深刻的理解。在此之前，首先还是要介绍Exadata的背景知识。Exa读音为“艾克萨”，表示一个单位，

13、度量是10的18次方。一般认为，Exadata这个名字源自于Oracle的竞争对手“Teradata”（中文名为天睿）。 Teradata成立于1979年，是美国前十大上市软件公司之一，它于2007年从其母公司NCR独立出来，是世界上最早提供数据仓库一体机的厂商。事实上，从名字上就可以看出它们之间的一些渊源tera 表示10的12次方。Exadata最初的目标就是要超越Teradata在数据仓库一体机方面的垄断地位，在尽管小众但是利润率很高的一体机市场分得一杯羹。当然Oracle是一家“野心勃勃”的公司，超越 Teradata并不是它的最终目标，但是Exadata这个名字却一直被沿用下来。与

14、Exadata的诞生密切相关的另外一家巨头公司是Oracle公司的启蒙老师IBM。很早的时候，IBM就将其数据库与硬件、操作系统及自家的服务作为一个整体打包推销给其客户。例如DB2 for zOS以及 DB2 for OS/400。Oracle公司对这片市场自然是“垂涎已久”，按照Oracle公司向来“咄咄逼人”的架势，免不了会朝这个领域发力，挑战IBM公司的霸主地位，抢占高端市场。另外，不得不提到的一个关键性人物就是Larry Ellison的老友、也是他曾经的老邻居Steve Jobs。iPhone的成功不仅在电子消费品市场开创了一个崭新的时代，还给这个浑浑噩噩的市场注入了一剂强心剂，

15、也彻底颠覆了行业中盛行的企业级硬件市场为不盈利的鸡肋这一想法。同时还给很多产品经理上了宝贵的一课：单凭卖硬件不足以获得很高的利润，只有把软硬件结合起来，才能获得更好的用户体验，从而获取更高的利润。 1.2 Exadata设计哲学 Exadata不是无缘无故产生的，更不是出自“要有光，于是便有了光”的无所不能的上帝之手。Exadata的产生源于很多方面的专家多年宝贵经验的积累，同时它更是为了解决长期困扰很多Oracle用户的特定难题而来。长期以来，受制于传统的Oracle数据库自身架构的局限，Oracle数据库在处理某些类型的请求时效率并不高。例如在数据仓库架构中有这么一种很典型的场景：当

16、需要从一个很大的结果集中过滤一少部分数据时，首先数据库会发出一个请求，把大量数据从存储端读到数据库服务器端；然后由数据库服务器应用过滤条件，对这大批量的数据库进行条件过滤；最后才能将过滤后的结果返回给最终用户。可以看到：整个数据库的瓶颈在于存储端向数据库服务器端内存传输数据的这一阶段。如果结果集非常大，同时过滤返回的数据量并不多，那么这种方式是非常低效的。由于数据量的爆炸性增长，单纯依靠增加存储到数据库服务器端的带宽显然已经无法满足这种需求了。要解决这个问题，得从减少从存储到数据库的流量着手。那么怎样才能减少这一段的流量呢？首先想想传统的架构为什么无法做到，原因在于传统的存储是“死”的

17、，不够智能，即存储并不能识别数据库段发送过来的过滤请求，最终的数据过滤操作还得交由数据库引擎来处理。如果有这么一种智能存储，能够识别数据库服务器发送过来的数据过滤请求，那么能大大地降低存储端到数据库端的数据流量，从而大大提高这种场景的效率。Exadata Smart Scan就是用来解决此类问题的。这种架构可以看作是一种分布式架构，可以认为是Oracle公司为了解决RAC shared disk架构的局限所做的一种尝试。还有就是传统的数据仓库应用的数据量可能非常大，并且随着业务的增长，数据量在进一步地膨胀。一方面，会导致用户需要购买更多的存储设备，带来了更高的成本。另一方面，随着数据量的

18、增加，带来的是扫描效率的降低，因为更大的数据量意味着需要扫描更多数据块，所以数据压缩的比例和效率在数据仓库领域显得至关重要。传统的行式数据库例如Oracle数据库通常无法提供特别高的压缩比，而列式数据库虽然能提供较高的压缩比，但是对DML性能影响较大。如果有这么一种压缩算法既能保证较高的压缩率，同时也能将DML操作性能的影响降到最低，那不就两全其美了吗？没错，它就是 Exadata的Hybrid Columnar Compression（混合列式压缩）！在过去的十多年中，机械硬盘的容量在逐渐增大，同时可靠性也变得非常高了。但是令人遗憾的是，硬盘的速率却没有随之增高，硬盘的读/写速率相比C

19、PU和内存要慢好几个数量级，因此绝大多数性能瓶颈最终可能都出在I/O上，而当前硬盘的读/写速率几乎已经达到机械设备的物理极限，想要继续增加必然是难上加难，硬盘的读/写速率不可避免地成为阻碍性能提升的一块短板。幸好，固态硬盘的出现让人又看到了一丝曙光。相比机械硬盘，固态硬盘最大的优势在于能够提供几十甚至上百倍的读/写速率。随着闪存技术的不断进步，固态硬盘必然是未来存储发展的一大趋势。对于Oracle数据库而言，并非通过简单地将机械硬盘替换为固态硬盘就能获得非常大的性能收益。必须要从最底层的内核、架构方面针对闪存存储进行全面优化。根据大量真实客户的实践经验，Oracle开发和性能优化团队把所

20、有固态硬盘的最佳实践都融合到了Exadata的闪存技术上，从而使得固态硬盘的威力在Exadata上发挥得淋漓尽致。以上就是Exadata的三大核心技术Smart Scan、Hybrid Columnar Compression和Exadata Smart Flash Cache产生的背景。可以看出，尊重客户需求和敏锐的市场眼光决定了“Exadata将成为 Oracle 30年发展史中最成功的新产品”。 1.3 Exadata的演化与发展 Exadata这个名词第一次被业界所知晓是在2008年的Openworld大会（Oracle的年度技术大会，通常在Oracle的Openworld大会上，

21、Oracle公司的高级管理层都会公布一些新的产品以及宣布一些产品发展方向）。Oracle公司的创始人Larry Ellison在该会上宣布与HP公司一起发布第一代Oracle数据库一体机：HP Oracle Database Machine。但是实际上，Exadata的历史可以追溯到更早的时候，一个产品从创意到最终成为产品往往需要经历很长的时间。据Oracle系统技术高级副总裁Juan Loaiza回忆：2000年到2005年的时候，Oracle公司就有一个名叫SAGE的内部项目已经在秘密研发。（SAGE是Storage Applicant Grid Environment（网格环境存

22、储设备）的缩写，这就是Exadata的前身。至今还有部分Oracle文档中有SAGE的影子，例如介绍diskmon进程的时候。）当时产品经理内部有两种思路：第一种是提供智能存储设备，直接接入客户已有的 Oracle数据库系统上；第二种是提供主机、存储、网络、操作系统、数据库等一整套设备的解决方案。刚开始，第一种思路在产品经理内部占据了主流的位置，因为用户无需对已有的数据库系统做任何修改就能将已有的Oracle数据库系统迁移到SAGE存储上，并且当时Oracle的优势也不在做硬件产品上，相对于一体机而言，智能存储的客户接受程度应该会更高。但是随着时间的推移，产品经理发现这种看似“无痛”的方案

23、几乎无人问津，鲜有客户表示有意购买SAGE。最主要的原因在于整个方案太过复杂，并且为了可以跨平台，还要解决各类令人讨厌的平台兼容性问题。相反，产品经理在和一些客户的接触过程中发现，他们竟然对Oracle公司提供一整套设备的解决方案似乎更感兴趣。第一种方案很快就被产品经理们否决掉了。于是B计划开始顺理成章地实施，即做数据库一体机。但是同时新的问题又来了：Oracle是一家软件公司，在硬件设计方面毫无经验可言，即使重新招聘一批顶级的硬件工程师，也可能需要相当长的一段磨合期才能出成果，如果掌握的火候不够，甚至有可能导致整个计划流产。所以这时Larry Ellison找来了和自己私交不错的时任H

24、P公司总裁的Mark Hurd（现任Oracle公司总裁），希望HP公司能和Oracle公司合作，一道研发数据库一体机。Mark Hurd爽快地答应了，并成立了一个专门的硬件专家团队与Oracle公司的软件团队一起研发数据库一体机 Exadata。经过数年的潜心研发，第一台Exadata V1终于问世。 1.4 小结本章主要介绍了Exadata产生的一些技术背景，并依次对每一代Exadata产品的关键点做了简要的介绍与点评。虽然这些内容都是点到为止，但读者也不用着急，这些关键的特性将在后续的章节中进行详细介绍。本章最后对下一代Exadata的发展方向以及新特性进行了一些预测。未来的Exad

25、ata势必将更加智能化，同时性能将更加出色，管理将更加简单，并且将集成开箱即用的云服务，与大数据做到无缝集成。后面的故事让我们拭目以待。第2章 Exadata硬件配置 Exadata作为一体化的工程系统，包含了硬件和软件两个部分。两者相辅相成，缺一不可。硬件是软件的载体，没有硬件，软件就成了无源之水、无本之木；软件是硬件的灵魂，没有软件，硬件也只是一堆废铜烂铁。硬件和软件两者互相协调、互相融合才是Exadata的精髓所在。在开始介绍Exadata硬件配置之前，首先从整体上来认识一下Exadata。图2-1是一张Exadata满配的图片。图2-1 满配Exadata 从图2-1可以看到

26、一台满配Exadata是如何构成的。其中最下方的infiniband骨干交换机为U1，从下往上的7个存储服务器，编号为cel01cel07。接下来再往上的4台数据库服务器，编号为 db01db04。机柜最中间是KVM、cisco交换机，机柜中部上下两侧各一台infiniband叶子交换机。继续往上是数据库服务器db05db08，最上方的存储服务器是cel08cel14。如果是1/2配或者1/4配，则只有下半个机柜和中间机柜会放置设备，以最上面的infibiband交换机为界，上方的机柜留空。 2.1 Exadata硬件配置清单在Oracle官网上可以找到Exadata的配置清单，官方将其称

27、为Exadata datasheet。下面将Exadata X2和Exadata X3的主要指标归纳为表2-1，以供对照。表2-1 Exadata硬件配置列表说明：其中Q表示1/4配（Quarter Rack），H表示1/2配（Half Rack），F表示1/1配（Full Rack），E表示1/8配（Eighth Rack）。1 HP表示高性能（High Performance）SAS盘，单盘容量为600GB，HC表示高容量（High Capacity）SAS盘，单盘容量为3TB。曾经也有单盘容量为2TB的SAS盘，但是目前已经停产。存储节点磁盘空间指的是磁盘的裸空间，也就是在ASM冗

28、余之前的空间。 1 1/8配与1/4配的硬件完全一样，但是1/8配从系统层面限制了只使用1/2配的一半资源，这里是按照实际可用列出的。 2.2 Exadata数据库服务器硬件配置 Exadata X2-2的数据库服务器基于的型号是Sun Fire X4170M2，每台数据库服务器的配置如下： 2颗6核的Intel Xeon X5675处理器，其主频为3.06GHz。系统内存为96GB（通过可选的内存扩展套件可扩展至144GB）。 4块300GB的SAS硬盘（转速为10000r/min）。 HBA磁盘控制器，512MB的写缓存，需要电池做支撑。 2块万兆以太网控制器，型号为Intel 8259

29、9的双口控制器，不包括光纤模块。 4块千兆以太网网卡。 1块千兆内嵌式的ILOM网卡。 2个40Gb/s的infiniband接口。 Exadata X2-8的数据库服务器基于的型号是Sun Fire X4800，每台数据库服务器的配置如下： 8颗10核的Intel Xeon E7-8870处理器，其主频为2.4GHz。 2TB内存。 8块300GB的SAS磁盘，转速为10000r/min。 HBA磁盘控制器，512MB的写缓存，需要电池做支撑。 8块万兆以太网控制器，型号为Intel 82599的双口控制器，不包括光纤模块。 4块前兆以太网网卡。 1块千兆内嵌式的ILOM网卡。 8个40Gb

30、/s的infiniband接口。 Exadata X3-2的数据库服务器基于的型号是Sun Fire X4170M3，每台数据库服务器的配置如下： 8颗10核的Intel Xeon E7-8870处理器，其主频为2.4GHz。系统内存为2TB。 8块300GB的SAS磁盘，转速为10000r/min。 HBA磁盘控制器，512MB的写缓存，需要电池做支撑。 8块万兆以太网控制器，型号为Intel 82599的双口控制器，不包括光纤模块。 4块前兆以太网网卡。 1块千兆内嵌式的ILOM网卡。 8个40Gb/s的infiniband接口。 Exadata X3-8的数据库服务器基于的型号是Sun

31、 Fire X4800M2，其各项配置参数与Exadata X2-8的数据库服务器差异不大，关键配置信息如下： 8颗10核的Intel Xeon E7-8870处理器，其主频为2.4GHz。系统内存为2TB。 8块300GB的SAS磁盘，转速为10000r/min。 HBA磁盘控制器，512MB的写缓存，需要电池做支撑。 8块万兆以太网控制器，型号为Intel 82599的双口控制器，不包括光纤模块。 4块前兆以太网网卡。 1块千兆内嵌式的ILOM网卡。 8个40Gb/s的infiniband接口。 2.3 Exadata存储服务器硬件配置 Exadata X2-2的存储服务器使用的型号是S

32、un Fire X4270M2，每台存储服务器的配置如下：两颗6核的Intel Xeon L5640处理器，主频为2.26GHz。系统内存为24GB。如果选择的是高性能磁盘，则包括12块600GB的SAS磁盘（转速为15000r/min）。如果选择的是高容量磁盘，则包括12块3TB的SAS磁盘（转速为7200r/min）。 4块Sun F20PCIe闪存加速卡。 1块千兆内嵌式的ILOM网卡。 2个QDR速率为40Gb/s的infiniband接口。注意高性能磁盘和高容量磁盘两者只可取其一，早期可能存在2TB的高容量盘，但是目前已经停产。所以高容量单指单块容量为3TB的SAS盘。

33、Exadata X3-2的存储服务器使用的型号是基于Sun Fire X4270M3的定制版的，每台存储服务器的配置如下所示：两颗6核的Intel Xeon E5-2630L处理器，主频为2.0GHz；系统内存为64GB； HBA磁盘控制器，512MB的写缓存，需要电池做支撑；如果选择的是高性能磁盘，则包括12块600GB的SAS磁盘（转速为15000r/min）；如果选择的是高容量磁盘，则包括12块3TB的SAS磁盘（转速为7200r/min）； 4块Sun F40PCIe闪存加速卡； 1块千兆内嵌式的ILOM网卡； 2个QDR速率为40Gb/s的infiniband接口。 Exad

34、ata X3-8的存储服务器与Exadata X3-2的存储服务器配置信息完全一致，使用的服务器型号也是基于Sun Fire X4270M3的定制版，每台存储服务器的配置如下所示：两颗6核的Intel Xeon E5-2630L处理器，主频为2.0GHz；系统内存为64GB； HBA磁盘控制器，512MB的写缓存，需要电池做支撑；如果选择的是高性能磁盘，则包括12块600GB的SAS磁盘（转速为15000r/min）；如果选择的是高容量磁盘，则包括12块3TB的SAS磁盘（转速为7200r/min）； 4块Sun F40PCIe闪存加速卡； 1块千兆内嵌式的ILOM网卡； 2个QDR速

35、率为40Gb/s的infiniband接口。 2.4 Exadata实际可用磁盘空间表2-1中列举出来的是Exadata裸盘的空间，也就是没有任何镜像或者冗余情况下的磁盘空间，而冗余是放到ASM这个层面来完成的，并非通常情况下使用的RAID。所以Exadata真实可用的空间取决于ASM使用的冗余策略，理论上，如果使用的是ASM的Normal Redundancy冗余策略（2路冗余），则实际可用的空间大约为原始空间的1/2，如果使用High Redundancy冗余策略（3路冗余），则实际可用空间大约是原始空间的1/3。假定客户购买了一台1/4配高性能的Exadata X2-2，一共有3

36、台存储服务器，每台存储服务器有12块600GB的高性能盘，使用的是ASM的Normal Redundancy冗余模式，按照计算公式可以得到其可用空间为：实际可用空间=312600GB/2=10800GB=10.5TB 但是从ASM层面看到的却是下面这样的结果： ASMCMD + lsdg State Type Rebal Sector Block AU Total_MB Free_MB Req_mir_free_ MB Usable_file_MB Offline_disks Voting_files Name MOUNTED NORMAL N 512 4096 4194304 15593

37、472 15220648 5197824 5011412 0 N DATA_DM01/ MOUNTED NORMAL N 512 4096 4194304 894720 893464 298240 297612 0 Y DBFS_DG/ MOUNTED NORMAL N 512 4096 4194304 3896064 3879104 1298688 1290208 0 N RECO_DM01/ 从上述输入可以看到，实际可用的空间Usable_file_MB=5011412MB+297612MB+1290208=6599232MB=6444.56GB=6.29TB。足足与计算结果相差4TB！那

38、么这个差距来自哪里呢？是不是ASM 的冗余策略选择错了？首先找到Exadata x2-2的datasheet。对于1/4配，找到可用空间这一部分，如图2-2所示。图2-2 Exadata磁盘空间从图2-2中可以看到，在Exadata的datasheet中提到的1/4配高性能Exadata的裸磁盘空间确实是21.6TB，而可用空间为9.5TB，非常接近10TB。并且这个表格下面同时还有两个脚注。 3.For raw capacity，1GB=1billion bytes.Capacity calculated using normal space terminology of 1TB=10

39、24*1024*1024*1024bytes.Actual formatted capacity is less. 4.Actual space available for a database after mirroring（ASM normal redundancy）while also providing adequate space（one disk on Quarter and Half Racks and two disks on a Full Rack）to reestablish the mirroring protection after a disk failure. 注脚

40、3很明显是在说明，对于磁盘的容量，磁盘厂商是按照如下公式计算的：1TB=1000100010001000bytes，而操作系统则是按照1TB=1024102410241024bytes计算的。注脚4是说系统会预留一部分磁盘空间来保证能顺利进行re-mirroring，1/4配和1/2配预留的空间大小为1块磁盘的大小，而1/1预留的空间为2块磁盘的大小。了解了两个脚注的意思后，我们再来进一步详细分析： 1）硬盘厂商和操作系统计算的单位不一致，操作系统的单位进制为1024，而硬盘厂商的单位进制为1000，所以600GB的硬盘实际上只有600100010001000/1024/1024/1024

41、=558GB的空间。所以1/4配的高性能的Exadata真实的裸盘空间为558GB36=20116G=19.65TB，也就是说19.65TB才是实际真实可用的裸磁盘空间。 2）每个存储节点的前面两块盘都会分别预留30GB的空间用于安装操作系统，这一部分需要占据的空间为3023=180GB，这180GB空间也是ASM无法用到的。 3）脚注4提到的会为re-mirroring预留一部分空间，以保证ASM的rebalance能够顺利完成，这一部分预留空间的计算公式如下： DATA_reserved_space=DATA_pct*（num_qtr_half_racks（2*num_full_rack

42、s）*disk_size*1000/1024 RECO_reserved_space=RECO_pct*（num_qtr_half_racks（2*num_full_racks）*disk_size*1000/1024 除去DBFS这个磁盘组，DATA磁盘组大概占到所有磁盘组空间的80%，而RECO这个磁盘组大概占所有磁盘组空间的20%（DATA与RECO的容量比一般是82）。将上述条件带入到前面提到的公式，可得到： DATA_reserved_space=80%（1）600G/1000/1024 RECO_reserved_space=20%（1）600G/1000/1024 在脚注4里提

43、到，在一台1/4配的Exadata中，会预留一个盘的空间用于re-mirroring。所以在ASM做完normal redundancy以后，实际可用的磁盘空间为：（19.65TB-180GB- 558GB）/2=9689GB=9.46TB。 4）Usable_file_MB代表的含义并非是磁盘组的真实可用的空间，而是可用空间的一个安全值。对于Req_mir_free_MB和Usable_file_MB，Oracle官方文档给出了以下解释： Req_mir_free_MB Amount of space that must be available in the disk group to

44、restore full redundancy after the most severe failure that can be tolerated by the disk group.This is the REQUIRED_MIRROR_FREE_MB column from the V$ASM_DISKGROUP view. Usable_file_MB Amount of free space，adjusted for mirroring，that is available for new files.From the V$ASM_DISKGROUP view. 对于上面这段话，我们

45、可以这样来理解：假设有这么一种场景：1台1/4配的Exadata，由于某种原因（例如硬件故障），导致1个存储节点宕机并且完全不可用，这个时候这台存储节点上所有的数据在当前Exadata中有且仅有一份镜像。根据 ASM的机制，如果超过了DISK_REPAIR_TIME设定的阈值以后，ASM会自动进行rebalance，将这台存储节点上的所有数据重新分布到其他两个节点上，使得所有数据都重新拥有两份镜像。如果当前使用的空间在这个Usable_file_MB以下，那么这个时候ASM能正常的完成rebalance，但是如果实际使用的空间超过了这个阈值，则会因为剩余空间不足，导致剩余的两个存储节点无法

46、完成remirroring。那么也就表示有一部分数据此时只保留了一份（Normal正常情况下，所有的数据都有两份），并且无法完成rebalance。这个时候如果另外两个存储节点中的任何一个发生了坏盘，则有可能导致数据的丢失。所以Usable_file_MB这个值只是一个在安全范围内能正常使用的空间。在一台1/4配的Exadata中，这个值相当于一台存储节点的可用空间，简单的计算方法为： 558GB1230GB2558GB/3=6450GB=6.29TB 其中，30GB2表示存储节点操作系统所占的空间，而558GB/3表示ASM预留空间均摊到一个节点的磁盘空间。所以一台高性能Exadata

47、磁盘的可用空间接近9.5TB，一旦使用空间超过了6.5T，在某些情况下可能会造成数据丢失。介绍完所有型号Exadata的配置以后，可能有一些读者心里会犯嘀咕了：有这么多种型号的Exadata，我应该怎样来选择适合自己应用的Exadata呢？因为Oracle的策略是如果有新的型号推出来，那么老的型号的Exadata就不再出货。例如当前最新的Exadata型号是X3，那么我们就无法购买X2的机器。对于OLTP在线交易系统，通常选择搭载高性能磁盘的Exadata；对于OLAP联机分析系统或者DW数据仓库，通常选择搭载高容量磁盘的Exadata。Exadata X*-8主要针对超大型应用。 2.

48、5 Exadata磁盘的IOPS 在开始之前，我们首先需要先了解一下OLTP、OLAP之间的差异。有人对OLTP和OLAP类型应用的比较做了一个表格进行归纳，如表2-2所示。表2-2 OLTP与OLAP的差异除了OLTP和OLAP以外，越来越多的系统已经发展成为兼有OLTP与OLAP的混合型系统，这类系统的特征表现为白天为密集型实时性要求很高的在线交易，晚上则需要进行批量作业来生成报表。 IOPS表示每秒钟读写I/O操作的次数。对于在线交易系统OLTP或者混合型应用而言，IOPS是一项非常重要的指标，因为OLTP应用涉及大量频繁的读写操作，需要更快的响应时间。要求更高的IOPS和更低的延

49、迟。在Exadata中的Datasheet中，Oracle宣称Exadata具有非常高的IOPS，见图2-3。但是通过反向计算得到的IOPS值却与这个值存在“矛盾”的情况。例如：Exadata的datasheet中说一台高性能的1/4 配Exadata具有108000IOPS。1/4配一共有36块磁盘，也就意味着一块15000rpm磁盘需要300IOPS。又比如Exadata的datasheet同样宣称一台高容量1/4配Exadata具有6000IOPS，那么同样意味着一块 7200rpm的SAS盘需要166.67IOPS细心的读者可能很快看出了“破绽”。15000rpm的单块SAS盘的IOPS大概在175210，而7200rpm的单块SATA盘的IOPS在75100，如果取这个区间的最大值重新计算1/4配高性能的Exadata，那么总的IOPS只有3600，相比官方宣称的6000少

展开阅读全文