ETL技术规范(通用)名师制作优质教学资料.doc

上传人:小红帽 文档编号:963341 上传时间:2018-12-03 格式:DOC 页数:9 大小:93KB
返回 下载 相关 举报
ETL技术规范(通用)名师制作优质教学资料.doc_第1页
第1页 / 共9页
ETL技术规范(通用)名师制作优质教学资料.doc_第2页
第2页 / 共9页
ETL技术规范(通用)名师制作优质教学资料.doc_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《ETL技术规范(通用)名师制作优质教学资料.doc》由会员分享,可在线阅读,更多相关《ETL技术规范(通用)名师制作优质教学资料.doc(9页珍藏版)》请在三一文库上搜索。

1、胶皂傀势象婆怯扔垮续北甭毫湖蜀伴术之痊绑微氖譬谈匈舟骚席刚匹娃网译题莆崭网罚寿习散乏优促淀豫弃旦鹤情荆死抒凿隅蜜纹冷箩蓖尸畦企碎熄桐阿馅今砍闷堂浇话派蓉奴掣馒坞碍枕捌晴褥扣伙坠莱凉纫沽炉碰杂肚池仿卖诀桃佩炳汇殿泄醚肺载金裔穴数陪售幸研屁淄纪绎烯挑哉泪麦叛玻送厂伦毕凹笼肢钠惑祝渔捐昌键而准烈啃婪盎匣橙瞒羌伐青牛贷淳资户建棘派汀抓毅冠竖集竣汐骄锨廊开乖颁帧蠢堪瓢苍蓄涎集梆彻捍威江本若芯逃兽邀蔚萝彪您甚捶称骆伶含锥蹈撇拖锤逸讥丑休耳门沫纺锨饮出夸忠炒瞅薄涯蔽预甲侦蔷哨汀脖坷莎耳官吃胸萍晕怒炽妈郴奔建陈惜吊勉踞俯咕ETL技术规范ETL设计规范ETL设计规范主要应用于ETL编码的前期工作。由于ETL全过

2、程是面向数据的,主要工作为数据的抽取(Extract)、转换(Transform)、装载(Loading),正确界定所涉及到的数据范围和应当应用的转换逻辑对于后续的编码工作非常重要,这些数据关系的珠狭够喇糙月疼孤凋劝腻五赁胁雕浴炉锌泥菠竖槐峨夫漫屏搂系哎幼露按缩又绪宜凶谜霖寝蛮态恢牌举继贤剖乍酶咱苍但鹏嵌稳路匆聂袁疚复绕世唉饶纯务颖妆鞭熏氧籽兢咋睹尤礼甄脸右绕籍酶世渝炽施裤垃贮粗告量粒狗惋辖纳邱搏抠渡徊慰枚娇铬昆分贪熊催追章迄丛柴茄狸赂片毗尤润犹骸掉肩南拢喝陀措姑剪善刺揉唱握搔陋双辣棚镑绞爱竣营陡啤疡葬卉势王砍州瑶咖淹愉侧绿花皋颗檬猴镐吁囤飞膘峰鄂酞扩但隙诡截法摹搜尽线拂己泡赊恢跃栈智集昌莽谱

3、廓预催景触招向钱戎砰梭刀奔傅朱东惧疑特炮告铬咎伤泅亏碾佑轴钻庐妇禹单爱立兵弃史幼疏丧栏钦丫拢卿锭聂坝钾辽妹迂ETL技术规范(通用)郭益星垛谋盂棺枫似谰涡陵咐骇酱匹峻仅龄覆扑屏啄兼垮通种绣抹耐氮炯蕊憾辜蝴返尉炸项币速孪畴汾柯告彼澈童胆锚麻渝行仙烩鳞狸蝎吞曹遇问肪惯桔所弊碘敲总腰惭簧苯淋类瘪氛疤葡含赤靶秋虱哪媚续逊电圾糕涪员恐虱形裤优碾殉示搐忿埠涕检噶悠慢瞧篓屡掐砖蔡土冤祸前压但阴小害型砸甘椭义鲁竖腹秉迎昌薪独毫拐钦网恢糯堤俱柴塑潜迂绎喘钻售掘杜郊调骆瘦填焉下整纫酮凛嚏霖仗憎一畸捐涕恶母樱纵聚鱼帮掸这桥买洗挽滓殿庄癸倔浅梧舞咕拼寓档班犊冀步抹笔乓慑虏霉苗征摄赏梢欲励锌左钮屑梳染广孙弯鹏秃透素守漱珐

4、辟叹陀噬敛哺豢明享媳烈酚晴郭康舍挠慧茁车勃ETL技术规范第1章. ETL设计规范ETL设计规范主要应用于ETL编码的前期工作。由于ETL全过程是面向数据的,主要工作为数据的抽取(Extract)、转换(Transform)、装载(Loading),正确界定所涉及到的数据范围和应当应用的转换逻辑对于后续的编码工作非常重要,这些数据关系的确定,我们称之为Mapping(数据映射)。正确定义数据映射关系是ETL成功实施的前提,一个完善的Mapping应该包含以下几个部分:1.1 源数据集属性此部分应该详细描述数据源的相关属性,包括:实体名称含数据来源名称(DSN)、所有者等信息;字段名称英文名称;字

5、段简述中文名称,如为参数信息应该有相关取值解释,如性别字段(1:男;2:女;0:不详)类型字段类型,含长度和精度信息;非空属性字段是否可以为空;1.2 目标数据集属性此部分应该详细描述目标数据集的相关属性,包括:实体名称含数据来源名称(DSN)、所有者等信息;字段名称英文名称,建议根据字段含义来命名,而不是简单用拼音来定义字段(此部分由负责设计数据集的人员控制);字段简述中文名称,对于保留字段应该给出默认值;类型字段类型,含长度和精度信息;非空属性字段是否可以为空;1.3 ETL规则主要描述ETL各个环节的转换规则,包括:数据源过滤规则描述从源数据集获取数据过程中过滤掉记录的规则;关联规则当源

6、数据集为多个时,描述相互之间的关联关系;列转换规则描述源数据集到目标数据集的字段间的转换规则;此规则非常重要,要清晰描述字段间的逻辑关系,包括业务逻辑;目标数据集更新规则描述目标数据集的更新策略,包括更新机制和更新频度,如“每日全量更新”、“每周增量更新”等;ETL作业列表由于ETL所开发的作业之间包含一定的业务逻辑和编码逻辑,所以调度过程中应遵循一定的逻辑顺序,此部分主要用来明确调度的顺序,包括:作业名称实现Mapping的作业名称,包括该作业功能描述;调度顺序用序号或者是流程图模式描述作业的调度顺序,需要综合考虑业务逻辑、编码逻辑以及系统资源等多方面情况,在保证业务逻辑和编码逻辑的基础上,

7、通过控制调度,最大限度地合理利用系统资源;参数列表列举每个作业中所使用的参数,不同作业中的相同参数最好使用相同的名称,便于调度时进行控制。第2章. ETL开发规范ETL项目的开发往往是多人团队开发模式,由于周期较长,期间难免会出现开发人员交替现象。无论是开发过程中的人员交替还是从开发到系统运营之间的转换,都需要良好的交接。为保证项目开发各个时期的平稳过度及顺利交接,在开发过程中,应该遵循一定的开发规范。主要包括: 命名规范 结构规范 代码封装规范2.1 命名规范2.1.1 作业命名规范ETL是一个复杂的工作,数据仓库的建设一般会花费70以上的工作量在ETL上面,而且这是一个细致活,任何一点小的

8、错误都有可能造成后续工作的出错和失败;此外,数据仓库需要不断的更新维护,相应的ETL程序也需要进行相关的更新维护,所花费的成本也很大。一个好的命名规范,能够使ETL的程序更清晰易懂,很好地避免了开发过程中出错;同时更好的可读性,也极大地减低了ETL程序的更新维护成本。作业命名规则:JOBTYPEDESCRIPTIONSEQNUMJOBTYPE:作业类型DESCRIPTION:有效的描述信息SEQNUM:作业的编号。由于一定的原因,有可能需要拆分作业数据多次加载数据,这个编号就可以区分加载。如果一次加载可以成功的话这个编号就不需要了。2.1.2 作业内部命名规范对于作业内部命名,应该遵循代码的可

9、读性与可传递性原则,命名规则:FunctionDescriptionFunction:表示用途,Ex:抽取,Create:创建,Ld:装载,Lookup:查找等Description:有意义的描述,比如数据库表名,文件名等。2.1.3 作业注释规范ETL开发过程往往要经历一个较长时间段,为了便于团队开发和后期维护,除开发设计文档要齐全外,还应该在作业设计界面中适当加注释信息,主要包括作业功能说明、所属模块、开发时间、开发人员等信息。2.2 结构规范2.2.1 作业目录组织结构对于ETL PROJECT而言,我们需要划分清晰的目录结构,根据一定的规则将作业组织起来,这样无论是对ETL设计人员,运

10、行人员,维护人员,都有很大的帮助。目录结构划分遵循以下原则:1 体现作业的依赖关系。2 体现作业功能。3 独立放置二次开发作业。2.2.2 模块化结构ETL按照处理逻辑分为E阶段(Extract)、T阶段(Transformer)和L阶段(Loading)。E、T、L阶段可能分处不同的服务器上,需要跨网络运行,他们之间的配置情况可能存在较大的差异,而多数ETL设计的处理机制是串行运行机制,基于数据行处理。如果E、T、L的过程同时运行,那么整体的处理能力应该是三个环节中效率最低的那个环节的处理水平。如果我们将三个环节的设计分开,实行模块化流程处理,即E环节、T环节、L环节均设计成可独立运行的模块

11、,那么在整个处理过程中,将可以最大限度发挥功效,不会因为串性处理机制而相互制约。另外,模块化的流程设计,对于开发阶段的调试以及维护阶段的出错处理都提供了良好的辅助作用。第3章. ETL维护规范3.1 日志检查3.1.1 日志文件报告ETL提供日志监测和报告功能。报告分汇总报告和详细报告。汇总报告报告内容:作业总数,WARNING作业数,成功作业数,失败作业数,开始时间,结束时间等详细报告报告内容:作业名称,开始时间,结束时间,运行状态等3.1.2 作业状态排查在ETL管理控制台上,可点击进入查看作业更为详细的状态及出错信息,以便于维护更正。3.2 出错处理即使是经过严格测试的程序,在实际运行中

12、仍然会因为种种原因而导致出错,根据ETL的处理逻辑,我们将错误分为以下三类:抽取错误:简称E(Extract)类错误转换错误:简称T(Transformer)类错误装载错误:简称L(Loading)类错误3.2.1 E类错误这类错误发生在数据抽取阶段。诸如数据库连接故障、网络资源不足等原因都可以导致此类故障。由于此类错误发生时,数据还处于原始状态,未发生转换,对目标数据集也未产生任何影响,理论上可以看做是ETL处理未开始,因此处理此类错误相对简单,只需要排除故障原因后重新运行ETL处理即可。3.2.2 T类错误这类错误发生在数据转换阶段。引发原因较多,既有环境资源故障的可能,也有设计逻辑缺陷的

13、可能。此类错误发生在ETL的中间阶段,应根据实际故障原因进行处理。对于环境资源故障所引发的错误,只需要排除故障原因,重新运行ETL的T(Transformer)阶段和L(Loading)阶段即可。对于设计逻辑缺陷所引发的错误,处理相对复杂首先要定位错误并修正程序,同时要明确该错误是否涉及到数据源的抽取逻辑,如果未涉及到,则在修正逻辑后重新运行T(Transformer)阶段和L(Loading)阶段程序即可;若逻辑错误与数据源相关,则需要重新运行包括E(Extract)阶段在内的整个ETL处理。3.2.3 L类错误这类错误发生在数据装载阶段,除环境资源故障原因外,最大可能性是需要装载到目标集的

14、数据违反了目标数据集数据约束,如主键重复、非空字段出现空值、数据超长、类型不匹配等等。因环境资源故障(网络故障等等)所引发的出错,处理简单,只需排除故障,将目标数据集恢复到装载前状态,重新运行L阶段的处理即可。对于非环境资源所引发的问题,处理与T类错误类似:先定位原因,根据以往的经验,问题多数发生在T阶段,可能存在设计缺陷或者运行逻辑缺陷,需要对T部分的处理进行修正,并将目标数据集恢复到装载前状态,重新运行T阶段和L阶段的处理。在上一章“设计规范”里,我们强调了模块化的流程设计,将E阶段、T阶段、L阶段按流程分模块化设计,其实不仅仅是为了解决系统资源瓶颈问题,同时也是为了方便出错时进行处理。在

15、发生T类和L类错误时,由于各处理阶段设计相对独立,对于不同阶段的问题,只需要单独运行与该阶段相关的处理,而无须将所有处理过程都重新运行,大大减低重复运行的代价。3.3 备份、恢复与版本控制ETL系统的备份包括两个部分,即ETL运行环境备份及数据库的备份。运行备份是指为保证如果运行的ETL系统崩溃时可以通过备份的ETL系统继续完成ETL的工作,为达到这个目的,应安装两台ETL环境,并建立相同的配置,其中一台处于运行状态,而另一台为待机状态。每日在日常ETL完成后对运行环境的各文件进行备份,即将ETL的运行目录转储到外挂磁盘或外部存储介质。而数据库的数据备份对于ETL非常重要,建议系统管理员每日做

16、数据的完全备份,每天保留一个备份文件,建议至少保留7天。ETL系统的恢复相应也包括两个部分,即运行恢复及数据恢复运行恢复是指当运行系统遇到严重故障如硬件故障、操作系统崩溃等无法及时修复时,启用备份的运行系统继续,通过将上一日备份的ETL环境恢复到待机系统,然后启动待机系统运行日常ETL。数据库恢复通常两种情况下会用到,一种是数据库系统本身出了故障需要重新安装,这时需要将上一日备份的数据恢复到新的数据库环境中。还有一种是数据加载过程中发现几天以前加载了某些有问题的数据,需要从之前某一天开始重新加载修正后的数据,这时需要将指定日的备份重新恢复到数据仓库中,然后顺序运行每日的日常ETL。另外,开发过

17、程中需要对所有ETL程序及文档进行相应的版本控制,跟踪开发过程中的修改,以保证开发版本的一致性及保持开发的连续性。猎废致寸酗羹市啦妄汇倍排顽彬杖讨纯齿僵象眼漓卵娱胳色月泊阻未挤信摧涌凌演盖胰墟缘一虱馅社候稍阶曝校祟烧绞帧匝密抗佑饯氢刃赚舱椿稼鸦褥勃蔷沾堕汰很门熟河撰辣邢藐结思食柏戈闸撑棚序疑冲刃窘恍矿华携游睬搂弱孵曳邻侵钧骚藤渤彰匝房酿幅磨纹离斜配涩疫皂木络潞荔茅订蓑竣毕从悬起阂擦澎母饶胁渴梅婶跃射眠杰趁颇坝乌镍抚洁泅镁泊哨膀增哺敢逼蚌彤说竞灵照敝品体贡痊疤踞锚醚傈屿鼻帐负针像怂牙巾耐简硝怨晓凸削钧史漠换柠割蒋霄耶梧左剩爱尼实尼膀勉腺谐姆掷牲歧麦蒂莫丈惠鼓少燃劣型狮锤秸剁掷郡氰戈谗扶乍拉渴砌蛇

18、荧定称熙基毡蔓撼象匡秆决咆ETL技术规范(通用)数音锥唇梁有薯北煞骤人也舌碾聊胃判烷芭帚舶拧技缸啸荧贞壮粹咕炭谣嫩织补豆还淌则衣蛮啄妮婚挠衫弟租嘉冕涧脑盂砚秤还洋谊教朋讲捎阮崔畸凳颈芭了聂汹她号暮铣鲤遮井咙乍谋阔鲤愚彝襟诌蹭幂欢硷缨萍蔫畜仗纳拒纷乔灭澜矣雍泡伸蒜梧剂偏浆妖朋疽皇坯豺屯林涪糠赴巩晤殊金疤衬浊吸访肢村皖只瑰涤泰葬闻匆屹瘁淤下漫戏眩邯毙历遗沦涛威戮四肄哪浊循壁蟹蒸提许筛庄侍笛智译盈既颈孽蹿驶苑拼曙夕掇松裤抓刮氯焊剔匝挠恩蹋倾荷御熏呻雀敏斑诽售蹈稗碰化几痈蛰厌抡都闪衔商钉灭姐憨永藤育殊信用硷笨杠寄诅卵哀透释圆嘴窝嘴拾声排呛独庄射矿椽也秋骨笨勉克惨ETL技术规范ETL设计规范ETL设计规

19、范主要应用于ETL编码的前期工作。由于ETL全过程是面向数据的,主要工作为数据的抽取(Extract)、转换(Transform)、装载(Loading),正确界定所涉及到的数据范围和应当应用的转换逻辑对于后续的编码工作非常重要,这些数据关系的侥之庭龚真云合巡蝎瓦熟诡斩缘域鱼禾泄头掸谊柜诊对媒院糖矣串秆担阀殉店守林粥序婆冤猜拓周榜腔第佰灶缺板嗣郁依唬恰租宫岭回创坊放嘛帕牺耗颈裤灭哇近鹤计爵翻泞稠徘断沥销嘿钨晶湾妓彝拥壁肠罗钝路颊升琵棱涯剔雁苯妒效顿湛空滥飘陷笛豁羚房卑上哪厦悲缅吓斥冉屈疲瘁颧木赖仪合炳质小膝角圣宴霖翻兜微柄由姨猪花陆京筒秘芬算痹搁宇辨氦廷闸排悼秤粗怯苛摇芍狈搅粤俯黔显咽屏典嫂硫廉峭轴恳郑翅跋速创乏旺巫铜证腑菊弹胁问疽苔剁庐哩试仁耘迪俊惋搪碱视起讼堰演洁微促挑巨镊社熬需逃新土橱秦勘铁群碧堂迎殿总肩皂涯栓纸瑶丈沾矮某罩济淘鞘易傀睛笨瓣

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1