SPSS-Modeler培训PPT课件.pptx_三一文库31doc.com

资源描述

《SPSS-Modeler培训PPT课件.pptx》由会员分享，可在线阅读，更多相关《SPSS-Modeler培训PPT课件.pptx（116页珍藏版）》请在三一文库上搜索。

1、SPSS Modeler培训(1),2,培训内容,第一章 SPSS Modeler简介第二章读取数据文件第三章数据质量第四章数据处理第五章寻找数据之间的关系第六章复杂数据处理,3,第一章 SPSS Modeler数据挖掘简介,内容：数据挖掘概念和技术简介介绍CRISP-DM (跨行业数据挖掘标准流程) 介绍数据挖掘环境介绍基本操作,数据挖掘定义：用已验证的方法从大量数据中发掘出可采取行动的内在知识，从而改善企业运营。已验证的方法数据知识改善运营数据挖掘技术：预测与分类聚类关联性分析序列分析异常监测时间序列分析,数据挖掘,4,关联可能一起发生的事件

2、,关联分析,5,确定事件发生的序列,序列相关分析,6,基于事物的属性进行自动归类,聚类分析,7,对将来发生的事情进行预测,预测与分类,8,从正常群体中筛选出行为异常的个体,异常分析,9,基于事物发展的延续性和随机性预测事物未来的发展,时间序列分析,10,11,CRISP-DM 过程模型,跨行业数据挖掘标准过程（CRISPDM）定位是面向行业、工具导向、面向应用适用于大型工业和商业实践的一般标准六个阶段：商业理解数据理解数据准备建模模型评估结果发布,12,CRISP-DM商业理解,商业理解,数据理解,数据准备,建立模型,模型评估,结果发布,确定商业目标,形势评估,

3、确定数据挖掘目标,制定项目计划,背景,商业目标,成功标准,拥有资源,需求、假定和限制,风险和偶然性,专业术语,成本和收益,数据挖掘目标,数据挖掘成功标准,项目计划,工具和方法评估,13,预测应用相关的时间窗定义,初始期：用于计算用户价值（当前ARPU值），确定适合客户维系活动的客户群体。用于评估客户未来一年内的客户价值以及客户价值增长的可能性用于描述流失客户历史通话行为特征及产品消费特征观察期：用于构造流失预测模型分析指标的时间区域用于构造固定期限合同客户是否重新续约的时间区域用于构造客户流失类型预测模型模型分析指标的时间区域预测期：客户流失状态出现的时间区

4、域客户不再选择固定期限续约状态出现的时间区域,客户维系相关数据挖掘模型观测客户行为的时间窗,14,数据挖掘项目实施过程客户价值评估举例,业务目标是否只关注客户未来价值是否成长而不考虑客户未来的价值等级？客户价值等级如何划分？分析目标范围分析的范围是所有的客户还是部分产品的客户? 时间窗预估多长时间段以后的客户价值？客户价值等级定义是以多长时间段的价值为参考依据？业务分析思路假设哪些因素能决定客户未来的价值成长可能性？客户年龄、职业、最近一年的累积话费增长率、同龄人中的价值等级等数据挖掘目标细化是否针对客户未来变成其它任意等级的可能性进行评估？是否需要把预付费客户和后付费客户分开？,15

5、,CRISP-DM数据理解,商业理解,数据理解,数据准备,建立模型,模型评估,结果发布,收集原始数据,数据描述,数据探索性分析,数据质量描述,数据收集报告,数据描述报告,探索性数据分析报告,数据质量报告,16,数据挖掘项目实施过程客户价值评估举例,数据字典描述业务假设验证主要业务假设参考因素和分析目标的关联程度如何？业务假设不成立业务假设成立数据质量分析关注的因素数据质量如何？缺失率是否严重？,17,CRISP-DM数据准备,商业理解,数据理解,数据准备,建立模型,模型评估,结果发布,选择数据,确定分析包含/剔除数据,数据集,数据集描述,数据清理

6、,数据清理报告,数据重构,生成新的变量（字段）,生成新的记录,整合数据,合并相关数据,格式化数据,改变数据格式，适应分析,18,数据挖掘项目实施过程商铺价值成长性评估举例,缺失值填补客户年收入数据缺失，补入一定范围内的随机数？还是常值？还是建立另一个预测模型通过其它客户年收入来填补客户年收入缺失值？清理异常数据哪些客户由于特殊情况客户年收入填写失真？哪些客户年收入数据有问题？派生衍生变量最近3个月的交易量转换成交易量增长百分比；开户日期转换成开户时长等,19,CRISP-DM建立模型,商业理解,数据理解,数据准备,建立模型,模型评估,结果发布,选择建模技术,产生检验设计,建

7、立模型,评价模型,模型技术,模型假设,检验设计,参数设定,建模,模型评价,参数设定的修订,模型描述,20,精确营销分析中涉及的算法概述,通过有监督的学习算法在历史营销数据的基础上进行学习，获取客户当前属性和近期行为特征和客户未来行为发展趋势之间互相影响的数量关系，从而根据客户现有属性及行为对客户将来行为趋势作出一定的判断。通常，我们用连续性数值或定性分类数值作为描述客户行为趋势的主要方式。而用定性值描述客户未来一段时间内的行为趋势是这类分析中最常见的方法。如：客户未来价值的评估，客户流失标志等。不同类型目标值适用的算法：连续型目标值决策树、线性回归、广义回归、神经网络、支持向量机

8、分类定性目标值决策树、决策列表、神经网络、广义回归、逻辑回归、判别式、支持向量机、贝叶斯网络、Cox回归是否允许使用黑盒算法神经网络、支持向量机属于黑盒算法,21,不同数据模型结果比较,分析之初很难清晰定义哪种算法拟合效果最好准确性不是衡量不同模型效果的唯一标准需要多角度去评估模型的效果（准确性、查全率、纯度、提升度等）,收益图,提升图,22,CRISP-DM模型评估,商业理解,数据理解,数据准备,建立模型,模型评估,结果发布,结果评估,数据挖掘过程回顾,确定下一步的工作,评估数据挖掘结果,被认可的模型,数据挖掘过程的回顾,列出可能的行动,决策,23,数据挖掘

9、项目实施过程客户价值评估举例,参考因素的业务正确性例如：用作评估客户未来价值成长可能性的参考因素（客户持有产品数）是当前最新数据还是在预测时间周期前的历史数据？业务行动对未来贡献可能提高的客户采取哪些政策倾斜？哪些客户是需要采取营销资源倾斜的？,活跃客户评分分组,VIP客户评分分组,24,CRISP-DM结果发布,商业理解,数据理解,数据准备,建立模型,模型评估,结果发布,发布结果计划,监测和维护模型计划,生成最终数据挖掘报告,项目回顾,结果发布计划,监测和维护模型计划,最终数据挖掘报告,数据挖掘报告展现,项目检验总结,25,数据挖掘项目实施过程客户价值评估举例,客

10、户价值评估列表,未来具备高价值的客户,客户价值评估决策树模型结果,26,SPSS Modeler 简介,内容熟悉 SPSS Modeler 中的工具和面板介绍可视化编程的思想目的初步了解 SPSS Modeler 的功能,27,SPSS Modeler用户界面,数据流区域,数据流，输出和模型管理器,项目窗口,28,可视化编程,节点一个图标代表在 SPSS Modeler 中进行的一个操作工作流一系列连接在一起的节点选项板包含一系列不同功能的图标,29,选项板,源节点用来将数据读入 SPSS Modeler 中记录选项节点在记录上进行操作一条记录是一种“情形”或一“

11、行”数据字段选项节点在字段上进行操作一个字段是一个变量图形节点在建模之前和之后用来可视化数据建模节点代表有效建模算法注意：建模算法产生生成的模型,30,增加一个节点,在选项板上双击节点，自动放置节点到数据流区域注意：它会自动地连接到“中心”节点将节点从选项板拖放到数据流区域中在选项板上点击一个节点，然后在数据流区域中点击一下,未选择,选择,当节点在选项板中被选中后，会变成淡蓝色,31,编辑一个节点,在节点上右击，展开一个节点点击 “编辑” 在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作,32,连接节点,使用鼠标中键来连接节点在数据流区域上，把

12、一个节点连接到另一个上，可以通过鼠标中间键点击和拖放来完成（如果您的鼠标没有中间键，可以通过按住“Alt”键来模拟这个过程）,通过双击来连接节点双击选项板上的节点，自动把新节点连接到数据流区域中的“中心”节点上,未选中的节点（灰白色）,被选中的节点（淡蓝色）,33,删除节点之间的连接,在连接箭头的头部按住鼠标右键选择“删除连接”,34,关于连接节点：源节点,源节点是连接到初始数据源的节点源节点只能发送数据不能连接到一个源节点,35,关于连接节点：终端节点,终端节点是生成输出、图形、表格和模型的节点不能从终端节点连接到任何节点,36,注释流和节点,传递重要的信息在流中标明注释添加流

13、用途的小结，方便其他程序应用,37,SPSS Modeler 客户端和服务器端,SPSS Modeler 可以运行在客户端和服务器端两种模式下默认的模式是客户端在菜单 “工具” 中选择 “服务器登录” 注意 SPSS Modeler 客户端和服务器端版本必须匹配,38,帮助菜单,帮助主题 CRISP-DM 帮助教程软件使用辅助选项帮助键盘代替鼠标操作这是什么,39,第二章读取数据文件,内容 SPSS Modeler 中可以读取的数据格式读取文本数据文件读取 Statistics 数据文件使用 ODBC 读取数据库查看数据 SPSS Modeler 中的数据类型和字段方

14、向保存 SPSS Modeler 数据流目的介绍数据读入 SPSS Modeler 的一些方法,40,SPSS Modeler 中读取数据格式,文本文件 Statistics 数据文件 ODBC 兼容的数据库 SAS 数据文件用户输入文件,41,文本文件,自由字段文本文件是包含分隔符（逗号、制表符、空格或一些其它字符）的数据文件，可以使用变项文件节点读取数据如果数据是列界定的（字段未被分隔，但是始于相同的位置并有固定长度），应该使用固定文本文件导入固定文件节点读取文件 SmallSampleComma.txt SmallSampleFixed.txt,42,读取自由字段文本文件,添

15、加变量文件节点到数据流区域编辑节点指向文件 SmallSampleComma.txt 通过选择“类型”条目检查结果,43,读取固定字段文本文件,移动一个固定文件节点到数据流区域编辑这个节点指向文件 SmallSampleFixed.txt 构造 4 个新字段，列出变量名和字段长度,44,读取Statistics数据文件,添加 Statistics 文件节点到数据流区域编辑节点，指向文件 SmallSample.sav Statistics 数据文件有特殊的“标签”：变量标签描述字段数值标签附上解释数值的编码,45,数据库节点,使用数据库节点前必须配置 ODBC 驱动去指定数据库的位置

16、 “控制面板-管理工具” 选择 ODBC 选择 “添加” 备注:SPSS专用ODBC可从http:/,46,SPSS Modeler 13 新增功能支持数据库的等级,47,添加 ODBC 数据源,选择合适的 ODBC 驱动，该驱动应该匹配数据库的名称和版本数据源 Holidays 数据库文件custandhol.mdb,48,使用数据库节点,添加并编辑数据库节点：选择数据库节点连接数据源选择“添加新的数据库连接” 在数据源列表中选择需要连接的数据源，点击连接选择需要读取的表格,49,定义字段类型,类型节点指定字段的一系列重要属性指定字段类型、方向和缺失值 SPSS Modeler 可

17、以自动设置变量类型，用户也可以强制指定类型为建立模型，指定字段的方向指定缺失值以及如何处理缺失值变量值检查保证字段值满足一定的设置,50,定义字段类型,字段类型帮助您理解正在使用的数据，是一些数据准备和所有建模程序所必需的字段类型：连续型用于描述数值，如0-100 或者0.75-1.25 内的连续值一个连续值可以是整数、实数或日期/时间离散型用于当一个具体值的精确数量未知时描述字符串，一旦数据被读取，其类型就会是标记、集合或者无类型集合型用于描述带有多个具体值的数据（黄、绿、蓝）标记型用于只取两个具体值的数据（真、假）无类型用于不符合上述任一种类型的数据或者含有太多元

18、素的集合类型数据,51,字段实例化,在读取值前数据称为未实例化，字段设置为连续或离散型通过读取值后数据完全实例化，字段的取值和类型都是可知的通过类型节点或数据源节点上的类型条目可以指定数据类型,52,字段实例化,何时在源节点实例化数据集不太大不打算以后在流中增加字段刷新数据源刷新类型节点何时在类型节点实例化数据集较大，而且流在类型节点前就过滤了子集数据在流中被过滤数据在流中被合并或追加在处理过程中导出新的数据字段,53,字段类型,用变项文件节点读取SmallSampleComma.txt 字段实例化将ID字段的类型修改为无类型,54,字段方向,输入：输入或者预测字段输出

19、：输出或者被预测字段字段两者：既是输入又是输出，只在关联规则中用到无：建模过程中不使用该字段分区：将数据拆分为训练、测试（验证）部分分割：为每个不同的值建立不同的模型字段方向设置只有在建模时才起作用,55,第三章数据质量,内容缺失数据定义介绍数据审核节点目的熟悉SPSS Modeler 中的一些用来发现数据的准确性、完整性和数据整体分布的方法,56,缺失数据类型,系统缺失值，也被称作 nulls，这些值在数据库中被留为空格，而且在类型节点上它们并不被明确设置为“缺失”系统缺失值在 SPSS Modeler中显示为 $null$ 用户自定义缺失值，也被称作空白 blanks，

20、这些值在类型节点上被明确地定义为缺失确定为空白的数据值被标记为特殊对待，而且在大多数计算中被剔除,57,定义缺失值,在类型条目对话框中：右击菜单中选中“全选” 再右击选中设置“缺失” 选择“开” 类型条目选中 Children 字段“缺失”选项定义空白缺失值 99 类型再次读取值,58,数据审核,打开数据流：数据审核.str 使用制表节点输出表格：共有 4117 条记录使用数据审核节点连接类型节点执行数据审核节点输出检查结果,59,输出检查结果,点击小图看完整的分布图或直方图,60,第四章数据处理介绍,内容介绍选择节点处理记录介绍几个字段处理节点：过滤、导出、重新分类、设为标

21、志介绍如何自动生成节点目的学会使用SPSS Modeler中一些可用的数据处理技术，并使用这些技术清洗和精炼数据,61,数据处理技术,CLEM（ Clementine Language for Expression Manipulation ）是一种功能强大的语言，用来分析操作 SPSS Modeler 中使用的数据用在导出、选择、过滤、平衡等节点这些函数可以导出新的值、根据条件选择记录、比较和评估数据、插入数据注意：为了将错误减少到最小，当使用 CLEM时经常需要为字段名加上单引号,62,表达式构造器,尽量不要手动输入CLEM 表达式,63,选择节点,打开数据流：数据处理.st

22、r 使用选择节点连接类型节点选择符合条件“INCOME 20000”的记录选择模式“包含” 使用分布节点分别连接类型节点和选择节点生成字段 RISK 的分布比较选择前后的分布,64,过滤节点,使用过滤节点连接类型节点改变字段名 STORECAR 为 STORECARDS 移除字段 ID 使用制表节点输出表格查看结果,65,导出节点,使用导出节点连接过滤节点导出新字段导出节点四种形式：导出规则导出标记导出集合导出条件,66,自动生成导出节点,使用直方图节点连接最后一个导出节点直方图节点中选择字段INCOME 生成直方图自动生成导出节点或选择节点,67,重新分类节点,使用重

23、新分类节点连接最后一个导出节点选择单一模式重分类 Risk 字段为新字段 RISKCAT bad loss，bad profit 新值bad good risk 新值 good 使用制表节点输出表格通过表格比较两个字段,68,设为标记节点,打开数据流：设为标志.str 为标志节点用于根据为一个或多个集合字段定义的分类值导出标志字段。,69,第五章寻找数据之间的关系,内容介绍网络图节点和矩阵节点研究符号字段之间关系使用相关系数来研究数值字段之间关系使用Statistics输出节点连接Syntax 处理更加复杂的关系目的探索一些在SPSS Modeler中研究字段之间关系的途径,

24、70,在数据中寻找关系,数据审核节点使用目标字段层叠矩阵节点生成符号数据交叉列联表网络图节点可视化表现符号数据之间的关系统计量节点计算数值字段之间的相关系数散点图节点和直方图节点可视化表现数值数据（交叠符号字段） Statistics输出节点实现更加复杂的关系呈现,71,矩阵节点：关联两个符号字段,打开数据流：关系输出.str 使用矩阵节点连接类型节点生成列联表 RISK 是否随 GENDER 改变行 RISK，列 GENDER RISK 是否随 HOWPAID 改变改变列为 HOWPAID 选择行百分比注意在输出矩阵的显示条目，用户可以直接选择用何种汇总方式生成列联表,72,

25、网络图节点：可视化表现符号字段,使用网络图节点连接类型节点 MARITAL，MORTGAGE 和 RISK 之间是否表现出关联选择字段 MARITAL，MORTGAGE 和 RISK 线段值为绝对数值连接规模连续变化只显示大于 300 的连接 400 以下为弱连接，600 以上为强连接输出网络图,73,网络图修改,使用滑动控制丢弃 450 以下的连接使用控制条目设置： 1000 以下为弱连接，1500 以上为强连接右击与 y 没有连接的点（divsepwid）选择隐藏点击强连接（married 和 y，bad profit 和 y）自动生成导出节点（选择后连接变成红色）,74,

26、统计量节点：数值字段之间的相关性,使用统计量节点连接类型节点计算相关系数检查相关字段：选择所有连续型字段（ID 除外）相关性设定：定义相关强度标签,75,散点图节点,使用散点图节点连接类型节点 X 字段 = NUMCARDS Y 字段 = LOANS 交叠 = RISK 选项条目中：散开使用全部数据,76,直方图节点,使用直方图节点连接类型节点字段= INCOME 交叠= RISK 选项条目中：指定范围 30000 到 50000,77,Statistics输出节点,打开：Statistics输出.str 使用 Statistics 输出节点，可以调用 Statistics 过程来

27、分析 SPSS Modeler 数据。用此节点，必须在计算机上安装并许可使用 Statistics。,78,第六章复杂数据处理技术,内容合并多个数据源数据抽取样本，选择和缓存数据处理缺失数据处理日期处理时序数据文件操作,79,合并多个数据源数据,内容：使用追加节点串联包含相似字段的记录集的文件使用合并节点把不同数据源的信息加入到现有数据源使用超级节点简化数据流区域的内容数据： accounts97.txt， accounts98.sav， customer.dat,80,追加文件,使用变量文件节点读入文件accounts97.txt 确定选中“从文件读取字段名” 使用S

28、tatistics文件节点读入文件accounts98.sav 使用追加节点连接两个数据源节点使用制表节点分别输出表格,81,合并文件,使用变量文件节点读入文件customer.dat 确认选中从文件读取字段名分隔符选中制表符，取消逗号分隔符使用合并节点连接变量文件节点和追加节点选中按照关键字段包括匹配和不匹配记录使用制表节点输出表格,82,合并方法,按照顺序合并数据：如每一输入的第n 个记录被合并生成第n 个输出记录。只要任一记录缺少匹配的输入记录，则不会生成任何输出记录。按照关键字段合并数据：如果某一关键字段值不止一次的出现，则返回所有可能的组合。只包括匹配记录(内部合并)

29、包括匹配和不匹配记录（完全外部合并）包括匹配和选中的不匹配记录（部分全外部合并）包括第一个数据集中且不与其它数据集匹配的记录（反向合并）合并相同的关键字段：每个输出字段都有不同的字段名,83,超级节点简化数据流,超级节点在流中用星型图标表示，图标的明暗程度表示超级节点的类型和流的方向（流向或者流出）总共有三种类型的超级节点：源超级节点过程超级节点终端超级节点,84,超级节点,规则两个选中的节点之间必须有路径通过。一个完整的流不能压缩为一个超级节点。要压缩的部分流不能包括分叉路径（每个分叉路径包含终端节点除外）。操作创建超级节点编辑超级节点保存超级节点,85,抽取样

30、本，选择和缓存数据,内容：使用抽样和选择节点抽取样本使用分割节点分割数据为训练和测试样本使用缓存数据加速数据处理目的：介绍一系列对数据进行预处理的方法,86,使用抽样节点抽取样本,使用抽样节点连接变量文件节点设定抽样节点选项包括样本 random值为60 设定随机种子数54321 使用制表节点输出表格,87,使用导出、选择节点抽取样本,使用导出节点连接变量文件节点导出字段flag 规则random0 (2) 使用分布节点连接导出节点选择字段flag 输出分布图使用选择节点连接导出节点条件flag=0,88,使用分区节点分割样本,使用分区节点连接数据文件节点选择分成两部分

31、：训练与测试设定随机种子123456 使用分布节点连接分区节点选择字段分区输出分布图,89,数据缓存,为了最优化的执行，用户可以对任何没有结束的节点建立一个缓存。当对一个节点建立一个缓存的时候，缓存区会被下一次执行数据流时要通过节点的数据所填满。以后数据就从该缓存区中读取而不是从数据源中读取。缓存的主要作用：避免预处理过程的重复，提高速度冻结样本，例如导出和分区节点中使用随机函数选择样本,90,使用缓存,启用缓存带有缓冲区的节点能够以一个小的文件图标被显示在右上角。当数据在节点处被缓存时，这个文件图标是绿色的。刷新缓存保存缓存以Statistics文件的形式来保存一个缓存

32、区的内容读取缓存可以通过Statistics文件节点在流中读入可以恢复到最初生成缓存的节点,91,处理缺失数据,内容：使用审核节点产生过滤和选择节点包含和排除具有缺失数据的字段和记录使用填充节点删除空白使用类型节点自动检查空白处理缺失数据的建议目的：这一章引入一系列方法处理缺失数据数据：数据文件SmallSampleMissing.txt,92,使用审核节点提高数据质量,使用可变文件节点读入数据SmallSampleMissing.txt 确定选中“读取字段名” 使用类型节点连接变量文件节点 CHILDREN值99设定空白使用制表节点输出表格使用审核节点,93,生成选

33、择节点和过滤节点,审核节点产生菜单生成选择节点和过滤节点，插入类型节点和制表节点之间使用制表节点输出表格生成选择节点选择带有至少一个缺失值的记录生成过滤节点过滤带有缺失值的字段,94,数据流和输出,95,使用填充节点移除空白,三个填充节点插入类型节点和制表节点之间字段CHILDREN替换为0 字段INCOME替换为23407 字段SEX 替换为“unknown” 使用制表节点输出表格使用审核节点填充,96,自动检查缺失和超出边界的值,类型节点包含一种自动检查过程，自动检查数据是否符合当前的类型和边界设置。检查过程会忽略空白自动检查设置：无，无效，强制，丢弃，警告，中止强制设置选

34、项,97,处理缺失数据的建议,使用生成的选择节点丢弃有问题的记录使用生成的过滤节点丢弃有问题的字段使用填充节点填充值使用自动检查强制或丢弃不合规定的值可以用预测模型（例如神经网络）导出的值填充缺失值,98,处理日期,内容：介绍如何设定流中的日期格式介绍日期函数处理涉及日期字段的计算介绍如何使用导出节点的多重模式目的：这一章我们介绍在SPSS Modeler中如何处理日期字段数据： fulldata.txt，MultDate.txt,99,在SPSS Modeler中指定日期格式,100,计算时间长度,使用变量文件节点读入数据fulldata.txt 确定选中“从文件读取字段

35、名” 使用导出节点导出字段LENGTH_WAIT 导出规则date_months_difference(STARTDT,OPENDATE) 使用过滤节点过滤除STARTDT,OPENDATE和 LENGTH_WAIT以外的字段使用制表节点输出表格,101,多重字段的处理,打开数据流多重时间.str 加入导出节点选择多重模式导出字段Pur1, Pur2, Pur3, Pur4 和 Pur5 字段名后缀_Time 导出规则date_days_difference(AcctEst, FIELD),102,处理时序数据,内容：介绍一些CLEM时序函数介绍导出节点的计数和状态选项介绍使

36、用历史节点重构时序数据目的：这一章中我们介绍在SPSS Modeler中可用的一些处理时序数据的方法数据： year_balances.txt,103,数据,变量文件节点读入数据文件year_balances.txt 确定选中“从文件读取字段名” 使用类型节点实例化数据使用排序节点按照ACCTNO,MONTH 排序使用制表节点输出表格,104,CLEM时序函数,使用INDEX记录索引使用OFFSET重新得到字段的值 OFFSET(ACCTNO,1) 平均，求和，比较值 MIN MAX MEAN SUM SDEV SUM(BALANCE) MEAN(BALANCE,3),105,计

37、算每个账目字段余额3月平均,106,导出节点的计数选项,107,导出节点的状态选项,108,图解数据经过历史节点,109,使用历史节点重构时序数据,使用历史节点连接排序节点选择字段BALANCE 偏差1，间隔11 使用制表节点输出表格使用抽样样本包括样本抽样1-in-12 使用制表节点输出表格,110,文件操作,内容介绍聚合节点总结记录介绍设计标记节点转换一个集字段为一组标记字段使用合并节点和设计标记节点的输出目的这一章介绍两个能改变数据整体结构的节点数据 fulldata.txt,111,图解数据经过聚合节点,112,聚合数据,打开流文件操作.str 排序节点连接选择节点按字段ID排序聚合节点连接排序节点关键字段ID，关键字段相邻聚合字段：AGE, INCOME，CHILDREN 聚合模式：Max 聚合字段OPEN_BAL和 CURR_BAL 聚合模式：Sum 使用制表节点输出表格,113,图解数据经过设计标记字段和聚合字段,114,设为标志节点,设为标记节点连接排序节点集字段ACCOUNT 排序节点连接设计标记节点按ID排序设计标记节点中选中聚合关键词ID 使用制表节点输出表格,115,合并聚合节点和设计标记节点的输出,

展开阅读全文