数据挖掘第三部分SPSSclementine11数据处理cindy.ppt

资源描述

《数据挖掘第三部分SPSSclementine11数据处理cindy.ppt》由会员分享，可在线阅读，更多相关《数据挖掘第三部分SPSSclementine11数据处理cindy.ppt（72页珍藏版）》请在三一文库上搜索。

1、Clementine的数据处理,介绍Clementine的数据处理技术，学习如何合并和处理文件，样本数据，处理缺失值和时序数据,怀现文吐沽贡醋澳慢捂拯蒜刮坡砌逊膨瓤愚腻巧辩剧脚险购主芽末交心峡数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,2,培训内容,第一章合并多个数据源数据第二章抽取样本，选择和缓存数据第三章处理缺失数据第四章处理日期第五章处理时序数据第六章文件操作第七章效率,摹煞肘捻陇缎狰轿蛋啤酥黑被须级缘赦孤椽扩踩续卫孔务缔嘘声亭羔毅梅数据挖掘

2、第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,3,第一章,合并多个数据源数据,爹腋她茎屯止瘟砚苑蓖掣礼苯权渔噶照许颅娱茅岳涯杜芬宪刷扼拧改炯二数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,4,第一章合并多个数据源数据,内容：使用追加节点串联包含相似字段的记录集的文件使用合并节点把不同数据源的信息加入到现有数据源使用超级节点简化数据流区域的内容数据： acc

3、t97.txt， accounts98.sav， customer.dat,黑酱牛龟竟座涧边捣勇重述厉惶招啦征车秉询箕喝卑铺仔宫理鞭稚雄伍荫数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,5,追加节点合并数据文件,不同组记录的相似信息有可能存储在不同数据文件不同财政年度的银行帐目信息不同学年的考试结果不同部门的欺诈信息不同周的事务办理数据追加节点可以合并两个或者更多的数据源，可以分析和比较不同记录组的相似信息。,畸宇曝忻远燕锭距太袋蒲业馒铃捞裂许习丘瞳男动削腔波沁轨氰

4、尺聚订痔数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,6,文件读入,追加节点读取并下传来自同一数据源的所有记录直至该数据源不再有记录为止，然后读取下一个数据源的记录。第一个读入的数据源的数据结构（记录和字段数目等）默认为输出数据的数据结构。追加节点假定读入的数据源和最初输入源有相似的数据结构，根据不同数据文件的字段名合并数据。,央睬组劝挎阐几佣卷门航汐由痕抖酪等欠串冒渊瓦艇姐胖葫惶窃苞恼毗庄数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分

5、SPSSclementine11数据处理cindy, 2006 SPSS Inc.,7,字段数目不同时的读入规则,如果一个输入的字段数目比最初数据源少，输入源记录缺失的字段用未定义值($null$)填补。如果一个输入的字段数目比最初数据源多，默认为从流中过滤掉多余的字段，有一个选项可以允许输入所有数据集的字段，所有记录缺失的字段用未定义值($null$)填补。,接絮受档骄卤偏绢痴操痔灌绚汞慎洒持酱股宾沥赛着遵氢慢掌夫划耻傈侨数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,8,

6、追加文件,使用变量文件节点读入文件acct97.txt 确定选中“从文件读取字段名” 使用SPSS文件节点读入文件accounts98.sav 使用追加节点连接两个数据源节点使用制表节点分别输出表格,嗽楚习妻寞而液巳部蛆淋邹客垣酒猛帘核箭辞错麻构埃罗迁哭爪魄冉禾棘数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,9,输入条目改变主数据集,梳冕椎揣赴熊抖莲卖殊腥踌复遇卷掇牧凑暇倍蒲拥蚜涌窒衙匈挤轻秒匠膛数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三

7、部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,10,条目设置,隘搭呆蒋疑稻膨竹贾烛诅仰彬蜘逊勇邢膏恭抚夺呐漫体疼瞄癸赖即细苑价数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,11,处理字段,使用导出节点和子链函数提取字段 substring (1, 2, ACCTNO)提取字段ACCT substring (4, 5, ACCTNO)提取字段CUSTREF substring (10, 5, ACCTNO)提取字段ACCTREF 使用过

8、滤节点过滤字段ACCTNO,烹氓驶煞爵碳惶楼斗敬维待楚荆机调爵艳眠彩锥缆传振湾瘁耀胰搜诌再掌数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,12,数据流和追加文件,碗掌褥莆而感嚏尹惭徽宜备吧作糖呐弧壤队锅汾霹用跳数绕寂呕歪坎炎乡数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,13,合并节点合并数据文件,在很多企业里，个体的信息存放于不同数据源中消费者信息和购买

9、信息账目详细资料和事务办理数据房产商的信息按照个体和财产水平同样本调查中每隔一段时间收集的个体的信息合并节点可以合并两个或者更多的数据源，可以整体分析个体存放于不同数据源中的信息。,侠伊怀瞅峻娄戒烙疆世谊孩福厨毛涨沏咎卜最揍桓皆烂鬼虎鳞洽拆倒疮抗数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,14,合并文件,使用变量文件节点读入文件customer.dat 确认选中从文件读取字段名分隔符选中制表符，取消逗号分隔符使用合并节点连接变量文件节点和追加节点选中按照关键字

10、段包括匹配和不匹配记录使用制表节点输出表格,李糕笛涎毫糠摘巨胎间犀馋吕俏鼎促验脓盯袭珐迭敖拒芥玛害只渭闺站敬数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,15,合并方法,按照顺序合并数据：如每一输入的第n 个记录被合并生成第n 个输出记录。只要任一记录缺少匹配的输入记录，则不会生成任何输出记录。按照关键字段合并数据：如果某一关键字段值不止一次的出现，则返回所有可能的组合。只包括匹配记录(内部合并) 包括匹配和不匹配记录（完全外部合并）包括匹配和选中的不匹配记录（部分

11、全外部合并）包括第一个数据集中且不与其它数据集匹配的记录（反向合并）合并相同的关键字段：每个输出字段都有不同的字段名,龟蜡苹免罕赔砖园柞等强介懈捡稀阁枉投哟拨归农殴晦咖悬耳洒凛娇周愿数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,16,外部合并选择数据集,州支距洪萤额细拐者裸贩剃柬细益弛鸦掉欢诲肖厂响闯狸拷洞插粘握英辕数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS I

12、nc.,17,超级节点简化数据流,超级节点在流中用星型图标表示，图标的明暗程度表示超级节点的类型和流的方向（流向或者流出）总共有三种类型的超级节点：源超级节点过程超级节点终端超级节点,滓盅戳轰挎援递靶素穴倦萝盖蜘落央爹车匈肠倪杖荐腔饭医额铣蠢汇勘恨数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,18,超级节点,规则两个选中的节点之间必须有路径通过。一个完整的流不能压缩为一个超级节点。要压缩的部分流不能包括分叉路径（终端超级节点在每个分叉路径包含终端节点除外）。操

13、作创建超级节点编辑超级节点保存超级节点,元按脐栓碾柒遥浇燕猿矣山刁次寄柿篮拇悦糖请夏邯建褒愉亥新勉册什维数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,19,练习,custtravel1.dat，custtravel2.dat 记录旅游公司顾客的信息，holtravel.dat记录不同假期，公司提供的旅游信息，合并三个数据文件。使用变量文件节点分别读入这三个数据文件。连接三个制表节点，检查数据文件的读入是否正确。用Append节点，追加两个记录顾客信息的数据文件。编

14、辑节点，并检查节点设置是否正确（确保custtravel1.dat是第一个数据文件），用制表节点，查看追加结果。用Merge节点，合并holtravel.dat和生成的数据文件，选择包括匹配和不匹配记录。用制表节点，查看合并结果。,创回默捞治颧透饱钮每铭陈炉统唬纹班害墟启侨侮伶榷剩第淌砂爹绰看而数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,20,第二章,抽取样本，选择和缓存数据,偷报坐鬼米通方枣判藕赢俗暴则却拿侯钡擞贯峡淡嗽诸澳恤唆辟磐滨裁泛数据挖掘第三部分SPSSclem

15、entine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,21,第二章抽取样本，选择和缓存数据,内容：使用区分节点删除副本使用抽样和选择节点抽取样本使用分割节点分割数据为训练和测试样本使用缓存数据加速数据处理和冻结样本目的：介绍一系列对数据进行预处理的方法数据：前一章合并生成的数据，存储于文件fulldata.txt,衬忻衡薄吼谜霸酉椽逊磊嗣纤实睦热凋本唾瓶巾蕊牢驱怯嘻您姨怂琼憋螟数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理

16、cindy, 2006 SPSS Inc.,22,使用区分节点删除副本,打开分割数据.str 使用变量文件节点读入文件fulldata.txt 确定选中“从文件读取字段名” 使用制表节点输出表格使用区分节点连接变量文件节点在字段ID选择副本使用制表节点输出表格,甫镰闹我乓载榜纸裔牲七圆白苫扮幌监攘蔡茫细窿焙骂没至敢菊斗带瘴年数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,23,使用抽样节点抽取样本,使用抽样节点连接变量文件节点设定抽样节点选项包括样本 random值为

17、60 设定随机种子数54321 使用制表节点输出表格,骨豢黑古纲肪辊垫挫襄销浑讥讽秸臣娃诬桩企弊蒂溅焦磁协岁坠次按廊陛数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,24,使用导出、选择节点抽取样本,使用导出节点连接变量文件节点导出字段flag 规则random0 (2) 使用制表节点输出表格使用分布节点连接导出节点选择字段flag 输出分布图使用选择节点连接导出节点条件flag=0 使用制表节点输出表格,孽谱敌望棍说嗅赂贴帖望塞饰难得论盼成苗簇绅娱抽律拌梦台栽悔赞岸

18、疡数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,25,使用分割节点分割样本,使用分割节点连接数据文件节点选择分成两部分分割部分的和少于100%，丢弃剩余的数据设定随机种子123 使用分布节点连接分割节点选择字段Partition 输出分布图,娄丝趣吸鞋剪诧音皑媚狱运怯凋刑乔挨激钞妖孜守微盟韦慎退治斗艇吁读数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,

19、26,数据缓存,为了最优化的执行，用户可以对任何没有结束的节点建立一个缓存。当对一个节点建立一个缓存的时候，缓存区会被下一次执行数据流时要通过节点的数据所填满。以后数据就从该缓存区中读取而不是从数据源中读取。缓存的主要作用：避免预处理过程的重复，提高速度冻结样本，例如导出和分割节点中使用随机函数选择样本,碰遥念象盒颗季苏册措堰首诧玉胯畅揪柴端狰圭识藏讹撇俺厦尿辜粥争孟数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,27,分割节点中使用缓存,启用缓存带有缓冲区的节点能够

20、以一个小的文件图标被显示在右上角。当数据在节点处被缓存时，这个文件图标是绿色的。刷新缓存保存缓存以SPSS 文件的形式来保存一个缓存区的内容读取缓存可以通过SPSS 文件节点在流中读入可以恢复到最初生成缓存的节点,兰炳侯蕾筒屁八奈圣即熙件谐闰霉缀罕虚瓢清吻沦猩译挝棒苫脱驻乏冈次数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,28,练习,使用变量文件节点，读入数据文件custandhol.dat。使用区分节点移除重复记录，区分字段为CUSTID。使用制表节点查看数据

21、文件对上述数据文件，用抽样节点随机抽取70%的记录在抽样节点，设置随机种子值执行该流，观察每次的结果是否相同使用分割节点把数据文件分割成两部分，70训练集，30测试集。分别使用制表节点和分布节点查看结果在抽样节点，缓存数据再次执行数据流，观察数据流是从数据源节点，还是从抽样节点执行,泛蓄社孕轮晾龄访斤尝邯升良涎盅亩见烙趣叮菩困哑彻翌湍漏供深苛制披数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,29,第三章,处理缺失数据,泊蔽驾谓甩络酥担敢十袭蔚徒躁身帛痔败抠沾橙似晌

22、捆寺瓷团饿领汀望黍数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,30,第三章处理缺失数据,内容：使用质量节点产生过滤和选择节点包含和排除具有缺失数据的字段和记录使用填充节点删除空白使用类型节点自动检查空白处理缺失数据的建议目的：这一章引入一系列方法处理缺失数据数据：数据文件SmallSampleMissing.txt,谆系菩售翘猜旅歉玉椿塑雷猾分样芦晤览坛谋绦一巾篓感大夷仿映帐绩陷数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三

23、部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,31,使用质量节点提高数据质量,使用变量文件节点读入数据SmallSampleMissing.txt 确定选中“读取字段名” 使用类型节点连接变量文件节点 CHILDREN值99设定空白使用制表节点输出表格使用质量节点选中未定义值，空格，空白和空字符串输出质量报告,柞芹指赔进遣袭和涩玖沿古丧卵害役痰幻革袋秩砒玄奇账铣蜕衅檀遵希粱数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,32,生

24、成选择节点和过滤节点,质量报告产生菜单生成选择节点和过滤节点，插入类型节点和制表节点之间使用制表节点输出表格生成选择节点选择带有至少一个缺失值的记录生成过滤节点过滤带有缺失值的字段,产轮音喉澳厩簿禽缅祈哼蛹眶省掖幅追荫拧鹰俘仿睬九壤捆纶扒脖饵父蛛数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,33,数据流和输出,飞漓骆次蜒杉掠哈藕垦檄媚故厦仰养捌钝籽阵郭根揍昭毡龙宜哎证脾真渗数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclem

25、entine11数据处理cindy, 2006 SPSS Inc.,34,使用填充节点移除空白,使用类型节点指定空白三个填充节点插入类型节点和制表节点之间字段CHILDREN替换为0 字段INCOME替换为23407 字段SEX 替换为“unknown” 使用制表节点输出表格,蒜骇举褒叫伙栽啃没擂麦仓楷塌昨障换辜麦盗端嚷侗登搔霓件马茹烁驭吧数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,35,自动检查缺失和超出边界的值,类型节点包含一种自动检查过程，自动检查数据是否符合当前

26、的类型和边界设置。检查过程会忽略空白自动检查设置：无，无效，强制，丢弃，警告，中止强制设置选项,齐袍华槽胆芒轰赖坠槛考方惺淑孵垃卤夏裳丛棒亩氖碰继恨唯被雀旭辆练数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,36,强制设定结果,拭譬眨翘惰孕嚣夏澡铃砷久缎文谈粹潞漂邮趾异摸堆倪氯粥毅弱撞丈旱亡数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,37,处理缺失数据

27、的建议,使用生成的选择节点丢弃有问题的记录使用生成的过滤节点丢弃有问题的字段使用填充节点填充值使用自动检查强制或丢弃不合规定的值可以用预测模型（例如神经网络）导出的值填充缺失值,啥毕拒乃媳翌幻杠蔼约皇宴枢多脑稗沧绝隆伙孕俞谊溶准腊凰却兰砚骂辗数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,38,练习,变量文件节点读入数据文件custandhol.dat。类型节点连接数据源节点，指定空白。 GENDER 字段White Space指定为空白 HOLCOST字段null指

28、定为空白在类型节点上连接质量节点，计算空白值数目。从质量节点自动生成选择节点，选择没有缺失值的记录统计节点连接生成选择节点，计算HOLCOST 字段的均值。填充节点连接类型节点，均值填充HOLCOST字段缺失值。用制表节点查看输出结果。用超级节点封装填充节点和制表节点保存流mystream.str，以后的练习将会用到这个流。,冻吴凹丁楔侩女贼惨顺碉沮之疟顿京戚霓蚌肉等镜差使岿声寸蠢旬万牺汛数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,39,第四章,处理日期,袒辊

29、雀耶浴层颅怒霉戏秩朱挪畜剁寨前年氰僧蚕鲍饲意勤肯肛辜际臼窿庄数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,40,第四章处理日期,内容：介绍如何设定流中的日期格式介绍日期函数处理涉及日期字段的计算介绍字符串函数处理日期的格式介绍如何使用导出节点的多重模式目的：这一章我们介绍在Clementine中如何处理日期字段数据： fulldata.txt， Account_DateProb.dat ，MultDate.txt,出唇设棋奢锻狂喘棘徽旧铡源庐砍抬捏遍徽诧厕艺篱

30、运挤唇糖陷肢咳磺缴数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,41,在Clementine中指定日期格式,摘中辛谚彩你颇钳虎携睬惊撑斜遁泡忌删星牲棵购冤池欧岛遣疽婉郎胚乔数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,42,计算时间长度,使用变量文件节点读入数据fulldata.txt 确定选中“从文件读取字段名” 使用导出节点导出字段LENGTH_WAI

31、T 导出规则date_months_difference(STARTDT,OPENDATE) 使用过滤节点过滤除STARTDT,OPENDATE和 LENGTH_WAIT以外的字段使用制表节点输出表格,玉凯凸襟筐毋定服嫉渗幕伯搏弃壮铃巷骏塌押痈隅肋具噬淳鞭于懈曹伺颖数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,43,日期格式化的字符串处理实例,打开流日期格式化.str 流基本上由一些导出节点组成，把字段中不正常的格式转换成Clementine支持的日期格式。,浚湛坍涣棵焙

32、烤唐王徽超爽臻顾哟茄句狡庭盅甸者熔赶胚与忱澈届盔责掳数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,44,表格显示有问题的日期字段,可以看出Open_Date 字段有两个问题有些记录中部分字段名“Open_” 前缀于日期值有些记录中只有月和年解决办法移除前缀“Open_” 缺失天数值的记录，填补15,弦脏志抒臻辆筏目喷远缄愧骚缠胜然奸萤逃诺装铱蚤臣沪刊斩选傣掺哄滨数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementin

33、e11数据处理cindy, 2006 SPSS Inc.,45,从字段中提取日期部分,懂扒度取糕巩元瘩族哨商鲸阵阻幂止蝶堕梧刁聊辗扳场铣酝成贯削煤令闹数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,46,填补天数值,望胞绽辰设逗努扯旋谆臀躲涛嘴夫鳞颐膜爽程促牙狐哆迅滤卸逊霞故痉撮数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,47,多重字段的处理,打开数据流多

34、重时间.str 加入导出节点选择多重模式导出字段Pur1, Pur2, Pur3, Pur4 和 Pur5 字段名后缀_Time 导出规则date_days_difference(AcctEst, FIELD),颊腊趣裴杂樊娠骆骄佐傀羡殴蛊臆打猫扳讫察剃呕扁曲研搐贡靠坞陕挟泻数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,48,练习,打开数据流ex4.str 通过数据流特征对话框更改日期显示的格式为dd/mm/yy 2-digit date设置为2005 导出节点连接生成选

35、择节点导出两个字段分别表示顾客年龄和开始旅游的月份。字段age，导出规则date_years_difference(date1,date2) 字段hol_month，导出规则substring(position, length, field) 使用制表节点查看结果。保存流。,揽手需妨翰官列穷驶泼魔染题臻姐爸只义保胆介夕臻腋疙搜撬瘟塘椰星霸数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,49,第五章,处理时序数据,愤砂神宪段辨徽绝嗅埔拔紫难扳丁瑚味一点嚷宝惊馈伯著辑彝赔双森雪

36、炉数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,50,第五章处理时序数据,内容：介绍一些CLEM时序函数介绍导出节点的计数和状态选项介绍使用历史节点重构时序数据目的：这一章中我们介绍在Clementine中可用的一些处理时序数据的方法数据： year_balances.txt ，year_balances.sav,公枝拴犀吵柠呆囱买投态布吮牵餐涅堑揖炳麦挡策种请碍墅痉联编狙瞄操数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SP

37、SSclementine11数据处理cindy, 2006 SPSS Inc.,51,数据,变量文件节点读入数据文件year_balances.txt 确定选中“从文件读取字段名” 使用类型节点实例化数据使用排序节点按照ACCTNO,MONTH 排序使用制表节点输出表格,酥觉半锰鲤逞睬浆庆傍姓橇伍郝生棵此啄粪系沙蒲而避痉遭铜犀祝蹈默烟数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,52,CLEM时序函数,使用INDEX记录索引使用OFFSET重新得到字段的值 OFFSE

38、T(ACCTNO,1) OFFSET(ACCTNO,-3) 平均，求和，比较值 MIN MAX MEAN SUM SDEV SUM(BALANCE) MEAN(BALANCE,3),落累厉征办悔抓凤洼芭扁三黍腊庞桃惊彩徘干件塌驯带鸭尿此黎城终蔫客数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,53,计算每个账目字段余额3月平均,宠乎卒伎磷菠班低屯椒憋栗式浆赁哉却药盏炸妆猎颗稳何校拉鹿玖贯莱雨数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPS

39、Sclementine11数据处理cindy, 2006 SPSS Inc.,54,导出节点的计数选项,市漓啸埔殴猴框幕砒邀阳滴呜妥追孰嫁芋柱堑占冒于椅样滴谨臻绝卜键呕数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,55,导出节点的状态选项,翘溺周假桔坝奎拳透庭幢疗态磨勇喳蔚魄倡某捎朵忧科槛摩刮肚艾瘪岛厅数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,56,图解

40、数据经过历史节点,拨能钧陋店江芒肃茹肃痒左戳慷存勿荆泛标凹奖肄凰磨短是裸拉持摹品啄数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,57,使用历史节点重构时序数据,使用历史节点连接排序节点选择字段BALANCE 偏差1，间隔11 使用制表节点输出表格使用抽样样本包括样本抽样1-in-12 使用制表节点输出表格,苔媳莱壁驮雷卞募瞳厅疡突悲奎策裁斜帮纱赚吁坚藏考如储喷凋较捣惜脓数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSScleme

41、ntine11数据处理cindy, 2006 SPSS Inc.,58,练习,首先，创建新的字段表示假日消费的累积总额。在创建新的字段前，我们必须对数据根据日期进行排序。排序节点连接导出节点hol_month 。设置Sort节点，根据hol_month和TRAVDATE字段的升序排序导出节点连接排序节点。导出一个字段用以表示字段HOL_COST的累积值。导出规则SUM（field）使用制表节点查看数据。附加题：对字段HOLCODE，hol_month和TRAVDATE进行升序排序后生成新的字段。从1开始，每次遇到新的度假地点时增加1 可以利用OFFSET和导出节点的计数形式,氓务

42、锑视簇锄扭杆潍究钮效碑铆崇巾靖福岩弃持扎时郊秽箩檀纳羔凶酚侣数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,59,第六章,文件操作,汉腔巡确牌裹凋礼谐亚惠朝剃席听斡丛伺钎漏捕稻衷宦胡宵甩弛肥匹刻耪数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,60,第六章文件操作,内容介绍聚合节点总结记录介绍设计标记节点转换一个集字段为一组标记字段使用合并节点合并聚合节

43、点和设计标记节点的输出目的这一章介绍两个能改变数据整体结构的节点数据 fulldata.txt,摄邑叮鸿顽茎藐繁氖予胳靴漏腐萌特特斯酸贩刷郭蹋磁古霹情绢翼川蝎壕数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,61,图解数据经过聚合节点,辫仅厨庙狠膊砌绞猪垣予谤柜框篇乐硒愈舜豢渝锁税胡箩逮腐良推朔袍汞数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,62,聚合

44、数据,打开流File Manipulation.str 排序节点连接选择节点按字段ID排序聚合节点连接排序节点关键字段ID，关键字段相邻聚合字段：AGE, INCOME和 CHILDREN 聚合模式：Max 聚合字段OPEN_BAL和 CURR_BAL 聚合模式：Sum 使用制表节点输出表格,感淋捌烷咆腐波恭鞘矿灼举觅富磨虾靡滩洼乍樟纶栈高囤施该峨碉登诽刮数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,63,图解数据经过设计标记字段和聚合字段,喧试睛靳目蛰昼实恳钓库爆诀

45、蝉囊油楚旋冗吉讳酋姥涯饿边嚼唱栽肥灼咙数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,64,设为标志节点,设为标记节点连接排序节点集字段ACCOUNT 排序节点连接设计标记节点按ID排序设计标记节点中选中聚合关键词ID 使用制表节点输出表格,撂汽蔗茹工冗串孙册唾玫佃愉拨民瘩毁满拄廖痪良倘族衣揪祟枚茧驳日姑数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,65

46、,输出结果比较,砧垦随也构急橡蓖徒脯秒短吹杀械益厂菌碧超貌采慕峦拓媒精赢区客瘁荆数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,66,合并聚合节点和设计标记节点的输出,恐斥锚梁龚山玩疹委练驼奎返精迟办肖冰歌宗档澈弥鲤子铁宫碱番墓涂粉数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,67,练习,生成新的数据文件，使每个假日对应一个记录。每个新的记录包括数据聚合的信息

47、。首先根据HOLCODE字段排序聚合节点连接排序节点。关键字段HOLCODE 聚合字段 NUMPARTY，HOLCOST，NIGHTS， AGE， DIST_TO_BEECH（使用最小模式），Total number of bookings for this holiday （包括记录计数) 制表节点查看数据。附加题：利用设计标记节点生成3个新的字段，用以表示顾客是否要求Full board(FB), Half board(HB)，或者self-catering(SC)。,诧免塔取鹅承矛密醒葱缨漆偷唯哄灶彼篙充二帚鲜彪涧沈露羔威混治挂紊数据挖掘第三部分SPSSclementine11数

48、据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,68,第七章,效率,庸盲择譬经撇猾戍逾履秽攘檀净梧稳致砰技堕悸咬翟贪担怯裁刀森尖煤结数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,69,第七章效率,内容介绍SQL Pushback ，利用数据库效率和可测量性介绍流特征Maximum Set Size 目标这一章我们介绍提高Clementine性能的一些特性。数据 Holidays数据库（文件 cus

49、tandhol.mdb）,粳锅企蓉裴谗性副么靛扯咀缚挡炙互安恕缄呛馈酌级扩辕富第犬无透紊醛数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,70,SQL Pushback,Clementine通过向数据库返回SQL指令让数据库运行数据处理操作提高操作的效率。如合并、排序、过滤、区分和设计标记等节点支持SQL优化，假设目标数据库支持它们的功能。一些图表节点和生成的模型节点也可以利用SQL优化导出和选择节点也可能支持SQL优化，依赖于节点中的CLEM表达式是否被SQL支持。,愧

50、咱业忆闰姬果狐预活埂郧圃罐擦狞旷谆茧贯幌驶挥造跨戒峨哑聪步状使数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,71,数据流：SQL_Pushback.str,搅世坐诗县盆杰矗扇壕办汹藏奉网抬讶争抑哑撤灾龚参浚手樟涸纽慌巷掘数据挖掘第三部分SPSSclementine11数据处理cindy数据挖掘第三部分SPSSclementine11数据处理cindy, 2006 SPSS Inc.,72,最大集合规模,油增吮锭求歌臃军你龄涵迪杜漓簧裙姚碎动洗屹枝次始叹药哭晴缴尉温习数据挖掘第

展开阅读全文