SPSS-Clementine节点PPT课件.ppt

资源描述

《SPSS-Clementine节点PPT课件.ppt》由会员分享，可在线阅读，更多相关《SPSS-Clementine节点PPT课件.ppt（78页珍藏版）》请在三一文库上搜索。

1、SPSS Clementine节点,刘喜平江西财经大学,数据挖掘技术讲座之,Page 2,目录,源选项卡,01,记录选项卡,02,图形选项卡,04,输出选项卡,05,导出选项卡,06,字段选项卡,03,Page 3,源选项卡,Clementine 提供了简单有效的获取不同数据来源的方法,Page 4,资料来源选项板包含以下节点: 数据库用于通过 ODBC 导入资料。可变文件用于无限制字段的 ASC资料。固定文件用于固定字段的 ASC资料。 SPSS 文件用于导入 SPSS 文件。 SAS 文件用于导入 SAS 格式的文件。 Excel用于导入Excel电子表格用户输入用于替代已存在的来

2、源节点，也可通过在已存在节点上点击鼠标右键的方式使用该节点。企业视图 Dimensions,Page 5,可变文件,特点：通常一行数据为一个样本每行数据有相同的列，分别依次对应不同的变量列之间以逗号等分隔符分隔变量名一般存储在第一行,Page 6,节点参数设置文件,指定所读入数据的基本格式,Page 7,节点参数设置数据,指定所读入数据的基本类型等,覆盖：查看目前储存类型和是否需要重新储存。存储：可修改每一字段存储类型的列表。Clementine中其他的存储类型有：实数型、字符型、时间型、日期型。,Page 8,节点参数设置过滤,指定读数据时不读哪些变量,并可重新修改变量名,Pa

3、ge 9,节点参数设置类型,指定所读数据的变量类型对变量的缺省值和取值合理性等进行检查,实例化后的窗口,实例化前的窗口,Page 10,节点参数设置类型,Clementine中变量的类型范围型：如年龄离散型：如家庭人口数标志型：如性别集合型：如职业有序集型：如学历和收入水平缺省型：未明确的变量类型无类型：不属于上述类型,Page 11,节点参数设置注解,给节点命名和添加注释性的文字,Page 12,读取Excel电子表格,Page 13,读取Excel电子表格,Page 14,读取SPSS格式文件,数据文件扩展名为.sav,Page 15,读取数据库文件,Clementine支

4、持ODBC方式访问数据库两个步骤：建立数据源通过该数据源访问数据库,Page 16,读取数据库文件,选择相应的数据源和数据库中的表,Page 17,固定格式文件,使用固定文件节点从固定字段的文本文件中读入数据（字段未被分隔，但是始于相同的位置，并有固定长度）。将数据导入 Clementine，并指定列的位置和记录长度。,Page 18,用户输入数据,Page 19,变量的说明,变量说明是对读入数据流中变量取值的有效性进行限定、检查和修正，同时指明各个变量在未来建模中的角色,Page 20,记录选项卡,记录操作节点用于在记录层次修改资料集。这些操作在数据挖掘的数据理解和数据准备阶段很重要

5、。记录选项卡包括以下节点：选择（select）样本（sample）平衡（balance）汇总（aggregate） RFM汇总排序（sort）合并（merge）追加（append）区分（distinct）,Page 21,选择节点,用户可以使用选择节点根据具体条件从数据流中选择或排除某一记录子集，如符合ClassDrink条件的记录子集。选择节点也用于选择一定比例的记录，用户可以使用选择节点来创建自己的条件。例如，用户可以创建如下条件： Class=Drinkand random(10)=4 这一条件将从 Class 为“Drink”的记录中，选择大约40，并向流程的下游传

6、递这些记录以用于进一步分析,Page 22,Page 23,样本节点,用户可以使用样本节点来选取一定比例的记录。其作用是：提高数据挖掘工具的性能。大量削减一个大型的数据集，比如拥有上百万记录的数据集。使用抽样节点，使用者可以通过随机抽样来生成模型，该模型通常和从整个数据集中导出的模型一样精确。训练类神经网络。使用者应该为训练和测试各保留一个样本。,Page 24,Page 25,平衡节点,用户可以使用平衡节点来修正数据集中的不均匀性，以便能够符合特定的测试原则。如：某次健康调查的数据中1%为病患儿童，99%为健康儿童,Page 26,汇总节点,可以使用汇总节点，把一系列输入记录变换成总

7、括性的、聚合的输出记录,Page 27,排序节点,可以使用排序节点根据一个或多个字段值对记录进行升序或降序排列。排序节点经常用于浏览和选择带有最常见资料值的记录，有助于探索分析资料并作出决策，比如选择前十名最好的顾客的记录。,Page 28,合并节点,合并节点的功能是接受多重输入记录，并生成包含部分或全部输入字段的单一输出记录，这一操作在合并来自不同资料来源的资料时很有用。,Page 29,Page 30,追加节点,追加节点是在数据尾部不断追加样本的过程追加节点用于合并有相似结构而数据不同的数据集，假定它们具有同样的数据结构（同样的字段，同样的顺序），追加节点将会它们合并成一个大的数据集,

8、Page 31,Page 32,区分节点,可以使用区分节点来清除重复性记录。如果想在数据集中每一项对应一个单一记录，如客户、帐号、产品等，则这项操作将很有用的。,Page 33,字段选项卡,字段选项卡实现对字段的说明、重新计算、类别调整等目标字段选项卡包含以下节点：,类型过滤导出整体填充匿名化重新分类分箱分区,设置成标记（Set to Flag）重新结构化转置时间区间历史 SPSS变换字段重排,Page 34,类型节点,用于指定字段的一系列重要属性,Page 35,类型节点,“缺失”选项开：表示允许相应变量取用户缺失值关：不允许相应变量取用户缺失值指定：定义变

9、量取值范围、用户缺失值等信息,指定对变量值的修正方法,视下列值为空白,此处输入的离散值当空白处理,此处输入的范围值当空白处理,系统缺失值$null$和空格当空白处理,Page 36,类型节点,“检查”项对超出取值范围的不合理取值或系统缺失值进行修正修正方式：无：不进行修正无效：用系统缺失值($null$)替代强制：根据下述规则被转化为一个该种类型的合法值：对于标志型，用“假” 值替代对于集类型，用集值的第一个元素替代对于数值型，超过区间上限的数字用上限替代，低于区间下限的数字用下限替代，其余值用该区间的中位数代替丢弃：剔除相应样本数据警告：给出警告信息中止：中止流的执行,

10、Page 37,过滤节点,三个功能： (1)从记录中过滤或剔除字段 (2)重命名字段 (3)把字段从一个来源节点映像到另一个,Page 38,导出节点,从原始字段中导出新字段,Page 39,导出节点,选项模式：“单个” 还是 “多个”，取决于使用者是否想导出多重字段。导出为：选择导出节点的类型。公式：其新字段是任一个 CLEM 表达式的结果。标志：其新字段是一个标记，显示了指定的条件。集：其新字段是一个集，即它的元素是一组指定值。状态：其新字段是两种状态的一种。在两种状态之间的转换是根据指定的条件来决定的。计数：其新字段是基于条件正确的次数。条件：其新字段是两种表达式之一的

11、值，取决于条件的值。字段类型：新导出字段的类型,Page 40,填充节点,填充节点用来替换字段值以及改变存储。用户可以用一个指定的 CLEM 条件，比如BLANK（FIELD)，来替换字段值。也可以用一个指定的值替换所有的空缺和无效值。填充节点通常与类型节点结合起来替换遗漏值。,Page 41,Page 42,设为标记节点,根据一个类型为集合的字段创建若干个标志类型的字段,Page 43,重新分类节点,用于对类别值进行调整,Page 44,分箱节点,用于将数据离散化分箱方法：固定宽度分位数（同等计数）：每个箱的计数相同等级：数据样本的等级平均值/标准差：根据均值的若干个标准差范围分

12、组最优：根据最短描述长度原则分组,Page 45,Page 46,分区节点,将样本集分割为训练、检验和验证集,Page 47,分区节点,分区后,Page 48,重新结构化,调整数据集的组织,Page 49,图形选项卡,数据挖掘过程的某些阶段使用图形来对数据作探索性分析。图形的另一个常见用途是检查新导出字段的分布和关联。图形选项卡包括以下节点图（散点图）分布图（条形图）直方图（柱形图）集合多重散点图网络图时间散点图评估图,Page 50,散点图,散点图节点显示出了数值型字段之间的关系,观察这一变量的取值情况,Page 51,从图中可以看出什么信息？,Page 52,多重散

13、点图,多点图是一种特殊类型的散点图，它显示的是一个单独的 X 字段对应多个 Y 字段的情况,Page 53,Page 54,分布节点,展现在一个数据集中，两个分类变量值的发生情况,Page 55,Page 56,使用分布图,用户可以使用弹出菜单上的选项来选择数据的一个子集，导出一个标记字段，或对比平衡数据。,Page 57,生成的选择节点,对应的选择条件,Page 58,生成的导出节点,对应的设置,Page 59,直方图节点,直方图节点显示的是数值型字段变量值,Page 60,Page 61,集合节点,集合图显示的是一个数值型字段变量值与另一个字段变量值相对比结果的分布，而不是显示一个单独字段

14、变量值的发生率；此外，堆积图与直方图是很相似的。一个集合图对于阐明变量值随时间变化的变量或字段来说是十分有用的收集（Collect）：选择一个字段，其变量值被聚集，并显示在下面给定字段的变量值范围中。超出（在上,Over）：选择一个字段，其变量值将被用来显示上面指定的收集字段。操作（Operation）：选择堆积图中的每个条柱都分别代表什么。,Page 62,Page 63,网络图节点,网络图节点显示的是两个或两个以上分类字段之间关系的强弱程度。这种图像通过使用各种不同类型的线条指示联系的强度来显示关系,Page 64,Page 65,评估图节点,评估图节点提供了一种能够很轻松地评估和

15、比较模型、并从中选择最有利于应用的模型的方法。多个模型在图中被表示为多条相互独立的线。一共有五种评估图表，其中每一个都强调了一个不同的评估准则。增益：响应：提升：利润投资回报率将结合模型讲解,Page 66,输出选项卡,输出选项卡提供各种方式获得关于数据和模型的信息。包含的节点：表矩阵分析数据审核变换统计量均值报告 SPSS输出,Page 67,表节点,以表格的形式显示数据内容,Page 68,矩阵节点,矩阵节点允许用户建立一个显示字段之间关系的表。最常见的使用方式是被用来显示两个分类字段之间的关系，但是它也能够被用来显示标志字段之间或者数值型字段之间的关系。,

16、Page 69,分析节点,分析节点允许用户分析预测模型来评估它们产生精确预测值的能力。对一个或更多个产生的模型节点，分析节点可以进行各种各样的在预测值和实际值之间的比较。分析节点也可以被用来比较不同的预测模型。,Page 70,数据审核节点,数据审核节点可以用于对数据的探索和数据质量的审核,Page 71,Page 72,Page 73,数据质量控制操作：对离群值和极值的处理强制：用距离离群点或极值最近的正常值替代丢弃：剔除离群值或者极值无效：用系统缺失值$null$替代强制替换离群值/剔除极值强制替换离群值/用系统缺失值替代极值缺失插补：对缺失值的替补处理空值：对空白进行替补

17、无效值：对系统缺失值$null$进行替补空值与无效值：条件：对满足指定条件的变量值进行替补指定：与条件类似,Page 74,统计量节点,统计量节点给用户关于数值型字段的基本汇总信息。,Page 75,变换节点,用于对数值进行适当的变换处理,Page 76,均值节点,用于显示并比较不同分组的均值,Page 77,导出选项卡,用于将数据或分析结果导出为其他格式的文件导出格式：数据库：这个选项是将记录写到一个数据库表上。平面文件：这个选项把记录写到一个定界的文本文件中。 SPSS导出：这个选项把记录写到一个SPSS数据文件中。 SAS导出：这个选项把记录写到一个SAS数据文件中去。 Excel：导出为Excel文件,78,感谢您的关注,

展开阅读全文