1、数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典 元昌安元昌安 主编主编 邓松李文敬刘海涛编著邓松李文敬刘海涛编著 电子工业出版社电子工业出版社2 2本章主要内容本章主要内容建模前的通用设置神经网络C5.0算法生成决策树C&RT基于树的分类预测Kohonen网络模型K-Means聚类分析TwoStep聚类分析异常模型Apriori模型GRI关联规则生成规则集模型序列节点模型主成分/因子分析特征选择模型回归分析Logistic回归模型点击进入相点击进入相关节内容关节内容建模节点选项板包括以下节点:建模节点选项板包括以下节点:神经网络神经网络C5.0C&RTQUESTCH
2、AIDKohonenKMeansTwoStep异常异常图图21-1建模节点选项板建模节点选项板AprioriGRICarma序列序列主成分主成分/因子分析因子分析特征选择特征选择回归回归Logistic从图示来辨认一个生成模型的类型从图示来辨认一个生成模型的类型图21-2按列序分别为:神经网络C5.0C&RTCHAIDQUESTKohonenK-Means特征选择图图21-2生成模型选项板生成模型选项板Logistic回归TwoStep主成分/因子分析未精炼关联规则Apriori异常Carma规则集21.2 21.2 21.2 21.2 建模前的通用设置建模前的通用设置建模前的通用设置建模前的
3、通用设置21.1.1建模节点字段页签建模节点字段页签所有的建模节点都有一个“字段”页签,用户可以在此指定用于建模的字段。各建模节点的“字段”页签选项稍有区别,如图21-3、21-4所示是神经网络节点的“字段”页签和C&RT节点的“字段”页签。在建模前,需要指定使用哪些字段作为目标字段和输入字段。在默认状态下,除了序列节点,所有的建模节点都从上游的“类型”节点获取字段信息。如果使用“类型”节点选择输入字段和目标字段,无须在这一表上修改任何东西。对于序列检测模型,必须具体设定建模节点字段表上的字段。要了解更详细的内容,请看“21.15.1序列节点字段页签”。建模节点的字段页签选项综合为:图图21-
4、3 神经网络节点对话框字段页签神经网络节点对话框字段页签图图21-4 C&RT节点对话框字段页签节点对话框字段页签使用类型节点设置:这一选项告诉节点从上游的“类型”节点获取字段信息。这是默认设置。使用定制设置:这一选项告诉节点使用本节点指定的字段信息而不是来自上游节点的设置。在选择了该选项后,需要指定以下字段:(1)目标:对于需要至少一个目标字段的模型,选择目标字段。这类似于在“类型”节点中把字段方向设置为“输出”。(2)输入:选择输入字段。这类似于在“类型”节点中把字段方向设置为“输入”。(3)分区:选择分区字段,将会把源数据分区成不同的部分,以方便做测试等。使用频数字段:这一选项允许用户选
5、择一个字段作为频率权值。如果训练数据集中的每个记录代表不止一个单元例如使用汇总数据时,就可以选择该选项。字段值是每个记录所代表的单元数。频率字段的值应当是正整数。频率权值会影响 C&RT模型分支案例的计算。频率权值为零或者负值的记录将不参与分析。非整数频率权值取整为最相邻的整数。使用加权字段:这一选项允许选择某一字段作为案例权值。案例权值用于解释输出字段各水平之间的方差。这些权值用于模型估计但是并不影响 C&RT模型分支案例的计算。个案权值必须为正,但是可以不是整数。权值为零或者负值的记录将不参与分析。后项:在关联规则节点(Apriori 和 GRI)中,选择用作结论规则集中的结果的字段。(这
6、对应于“类型”节点中类型为“输出”或者“两者”的字段)。前项:在关联规则节点(Apriori 和 GRI)中,选择用作结论规则集中的前提的字段。(这对应于“类型”节点中类型为“输入”或者“两者”的字段)。使用事务格式(仅在 Apriori 节点中出现):Apriori 节点既可以处理交易数据格式,也可以处理表格数据格式。交易型数据有两个字段:一个用于存储 ID 号,一个用于存储交易内容。每个记录代表一项交易,相关交易通过相同的 ID号关联起来。使用表格格式使用表格格式(Apriori节点仅有):表格数据各项分别由二分变量表示,每个记录表节点仅有):表格数据各项分别由二分变量表示,每个记录表示一
7、个完整的交易项。示一个完整的交易项。如表如表21-2所示为一个表格格式的来源实例。所示为一个表格格式的来源实例。21.2.1 21.2.1 21.2.1 21.2.1 在数据流中使用生成模型在数据流中使用生成模型在数据流中使用生成模型在数据流中使用生成模型新产生的模型可以放置在数据流中,用于对新数据评估和创建新节点。使用一个生成模型来评估数据,其步骤如下:(1)在生成模型面板中点击选择所需模型。(2)点击流区域中的所需位置以便将模型加入到流中。(3)连接生成模型节点与数据源或转入数据的流。(4)加入或连接一个或多个过程或输出节点(如表节点)到生成模型节点。(5)执行生成模型节点的某个下游节点。
8、使用一个生成模型节点来创建过程节点,其步骤如下:(1)浏览(在选项板上)或编辑(在数据流区域上)这个模型。(2)从这个生成模型浏览器窗口的“生成”菜单中选择所需节点类型。根据不同生成模型节点的类型,有效选项将发生变化。参看特定生成模型类型的细节,用户能够得知从某个特定模型能生成什么。21.2.221.2.2使用生成模型浏览器使用生成模型浏览器生成模型浏览器允许用户检验和使用模型结果。从浏览器中,用户可以存储、打印和输出生成模型,整体观察模型,查看和编辑注释等。对于一些生成模型,用户也可以创建新的节点,(如筛选节点和规则集节点)。有些模型,用户也可以查看它的参数(如规则或类中心)。对于决策树模型
9、C5.0和C&RT),用户可以查看模型结构的图形表示,如图21-7所示。图图21-7 C5.0模型浏览器窗口模型浏览器窗口21.3 21.3 21.3 21.3 神经网络建模神经网络建模神经网络建模神经网络建模神经网络节点用于创建并训练神经网络。神经网络,有时也称作多层感知器,本质上是人脑处理信息方式的简化模型。它通过模拟大量相互连接的简单处理单元工作,这些处理单元是按层排列的。在神经网络中通常有三部分:一个输入层,其单元代表输入字段;一个或者更多的隐藏层;以及一个输出层,其单元代表输出字段。这些单元通过不断变化的连接强度或权值连接。神经网络学习包括:检查单个记录、为每个记录生成预测、一旦发
10、现生成错误的预测便对权值进行调整。这一进程多次重复,神经网络不断提高预测效果,直到满足一个或者多个终止准则。要求:对字段类型没有限制。神经网络可以处理数值型、字符型以及标志型输入输出字段。神经网络节点要求一个或更多字段有“输入”方向,以及一个或更多字段有“输出”方向。设置为“两者”或者“无”的字段将被忽略。在执行节点时,字段类型必须被充分实例化。优点:神经网络在执行一般估计功能时非常强大。他们一般能够和其他方法一样执行预测任务,有时甚至执行得更好。同时,训练和应用神经网络需要用户掌握的统计和数学知识很少。Clementine 中包含几项特有的功能,用以避免运用神经网络时的一些常见问题,包括:敏
11、感度分析辅助解释神经网络结果,修剪和验证以避免过度训练,动态网络以自动找出合适的网络结构设计。21.3.121.3.1神经网络节点页签神经网络节点页签图图21-8 神经网络节点对话框模型页签神经网络节点对话框模型页签模型名称:指定要生成的神经网络名称。(1)自动:选择该选项后,模型名称将根据目标字段名自动生成,这是默认设置。(2)定制:选择该选项可以为节点创建的模型指定用户定义的模型名称。训练方式:Clementine为建立神经网络模型提供六种训练方式:(1)快速:这种方法采用粗略估计方法,根据数据特征选择神经网络的合适类型(拓扑结构),需要注意的是计算隐藏层默认规模的方法已经与 Clemen
12、tine 以前的版本不同。新的方法通常会生成更小规模的隐藏层,训练起来更快,生成的模型更好。如果发现采用默认规模的隐藏层得到的模型精确度较低,用户可以尝试通过“专家”页签提高隐藏层规模或者使用别的训练方法。(2)动态:这种方法首先创建一个初始拓扑结构,然后随着训练的进展添加或剔除隐藏单元以修改拓扑结构。(3)多重:这种方法创建拓扑结构不同的几个神经网络(具体的数目取决于训练数据的情况)。随后这些网络以伪平行方式训练。在训练结束时,RMS错误最小的模型代表最终的模型。(4)修剪:这种方法以一个大型神经网络开始,随着训练的进行剔除(修剪)隐藏层和输入层的最差单元。这种方法通常很慢,但是常常生成比其
13、它方法更好的结果。(5)径向基函数网络(RBFN):径向基函数网络(RBFN)使用类似于K-Means 聚类的方法,根据目标字段值拆分数据。(6)彻底修剪:这种方法与“修剪”方法有关。这种方法以一个大型神经网络开始,随着训练的进行剔除(修剪)隐藏层和输入层的最差单元。由于是彻底修剪,神经网络训练参数的选择要确保对可能模型空间进行彻底的搜索以选出最好的模型。这种方法通常是最慢的,但是常常生成最好的结果。需要注意的是这种方法会花很长的时间训练数据,特别是训练大型数据集。预防过度训练:选择该选项后数据随机被拆分成训练集和验证集。网络在训练集中训练,而精确度则根据验证集估计。可以在“样本”框中指定用于
14、训练的数据比率。(数据集中的其余部分用于验证)。设置随机数种子:如果没有设置随机数子,则用于初始化神经网络权值的随机数序列在每次执行节点时各不相同。这样,即使神经网络设置和数据值完全一样,节点也会在各次执行生成不同的模型。选择该选项后,可以把随机数种子设置成某一具体值,这样结果模型就完全可再现。一个确定的随机数种子总是生成相同的随机数序列值,这样执行该节点总是生成同样的模型。停止于:可以从以下终止准则中选择一个:(1)默认:在这一设置下,网络将在其看起来达到最佳训练状态时停止训练。如果该设置与“多重”训练方法一起使用,训练不好的神经网络在训练过程中将被舍弃。(2)精确性:选择该选项后,训练将一
15、直持续直到达到指定精确度。也许永远不能达到指定精确度,但是可以在任意点终止训练并保存目前达到的最高精确度。(3)周期:选择该选项后,训练将持续指定的循环数(通过数据的循环数)。(4)时间(分钟):选择该选项后,训练将持续到指定的时间(以分钟计算)。优化:设置Clementine的优化策略。(1)速度:选择“速度”使算法执行加快,但是占用更多的内存。(2)内存:选择“内存”使执行速度减慢,但节约内存。神经网络节点选项页签神经网络节点选项页签图图21-9 神经网络节点对话框选项页签神经网络节点对话框选项页签继续训练现有模型:在默认设置下,每次执行神经网络节点时,会创建一个全新的网络。如果选择了该选
16、项,训练继续使用上次节点成功产生的网络。节点可以正确处理各次执行间训练方法的不同,但是RBFN 网络不能用于其它类型的网络。因此,当训练方法改成 RBFN 或者从 RBFN 改成其它方法时,节点的执行总是会创建新的神经网络。使用二进制集合编码:如果选择了该选项,Clementine会对集合字段使用压缩性二进制编码。在使用带有大量值的集合字段作为输入字段时,该选项使建立神经网络模型更加容易。但是,如果使用该选项,可能需要提高网络结构的复杂性(通过添加更多的隐藏单元或者隐藏层)以使网络正确使用二进制编码集合字段中的压缩信息。显示反馈图形:如果选择了该选项,用户会看到一张显示神经网络一段时间内学习过
17、程中的精确度。此外,如果选择了生成日志文件,会看到另一张图,显示训练集合和检验集度量(在下面定义)。模型选择:在默认设置下,如果训练被中断,节点会返回最好的神经网络作为生成网络节点。也可以要求节点返回“最终模型”。敏感度分析:选择该选项后,在网络训练结束后,节点会执行输入字段的敏感度分析。敏感度分析提供哪些输入字段对于预测输出字段是更重要的信息。(这些结果是模型信息的一部分,可以在模型结果浏览器中获得)。生成日志文件:如果选择了该选项,有关训练进展的信息会被写入指定的日志文件。要改变日志文件,可以输入一个日志文件名或者使用自定义()按钮定位。(如果选择了一个已经存在的文件,新的信息将被附加到该
18、档。)日志文件中各项输入的格式如图21-10所示。其选项如下:()图图21-10 生成的日志文件生成的日志文件说明:(1)()按照小时:分钟:秒 的格式HH:MM:SS.(2)()在多重训练模式下表明目前训练的神经网络。对于其它训练模式,值总是“1”(3)()是一个整数,从零开始每执行一次增加一次。(4)()分别对神经网络在训练数据集和检验数据集上的表现进行度量。(如果取消选择“预防过度训练”选项,这些值完全相同)。他们按照预测值和真实值的相关系数平方除以均方误差(MSE)计算。如果同时选择了“生成日志文件”和“显示反馈图形”,这些度量值会显示在反馈图中,作为对模型的精确度值的补充。神经网络节
19、点专家页签神经网络节点专家页签神经网络节点专家页签神经网络节点专家页签神经网络节点专家页签各选项随着所选择的训练方式的不同而发生变化。21.2.3.1快速方式专家页签快速方式专家页签快速方式专家页签如图21-11所示。隐藏层:选择神经网络的隐藏层数。更多的隐藏层可以帮助神经网络学习更为复杂的关系,但同时也增加训练时间。层 1,2,3:对每一层,指定其所包含的隐藏单元数。更多的每层隐藏单元数有助于学习复杂任务,但是和附加隐藏层一样,他们也增加训练时间。持续次数:指定未见改进时网络继续训练的次数。更高的持续次数可以避免神经网络的局部最小,但是同样增加训练时间。图图21-11 快速方式专家页签快速方
20、式专家页签多重方式专家页签多重方式专家页签图图21-12多重方式专家页签多重方式专家页签拓扑:指定用于训练的神经网络的拓扑结构。拓扑结构通过指定每层的隐藏单元数给出,各单元数之间用逗号隔开。使用适当的参数数目,拓扑布局可以指定1到3个隐藏层。比如,一个只有一层隐藏层,隐藏层有十个单元的网络可以指定为 10;有三个隐藏层,隐藏层所含单元分别为10,12,15的网络可以指定为 10,12,15。也可以提供用空格隔开的2到3个数字来指定一层中的隐藏单元范围。如果给的是两个数字,将创建一系列的神经网络,其包含单元数分别对应于第一个数字和第二个数字之间的各个整数(包括这两个数字)。比如,要生成每层分别含
21、10,11,12,13和14个隐藏单元的神经网络,指定为10 14。要生成有两个隐藏层,第一个隐藏层所含隐藏单元范围为10到14,第二个隐藏层所含隐藏单元为8到12,则指定为 10 14,8 12。在这种情况下,会生成包括所有可能的组合值的神经网络。如果给出第三个值,则用作第一个值到第二个值之间的增量。比如,要生成具有 10,12,14,16 个隐藏单元的类神经网络,指定为 10 16 2。最后,可以提供多重网络拓扑结构,用分号隔开。比如,要分别生成只有一个隐藏层,隐藏层所含单元为10,12,14,16,以及有两个隐藏层,第一个隐藏层有10个隐藏单元,第二个隐藏层有7到10个隐藏单元的神经网络
22、指定为 10 16 2;10,7 10。丢弃非四棱锥:四棱锥型是指每一层隐藏单元数不多于前一层的神经网络。这种网络通常比非四棱锥型网络训练得好。选择该选项丢弃不是四棱锥型的网络。持续次数:指定未见改进时网络继续训练的次数。修剪方式专家页签修剪方式专家页签图图21-13 修剪方式专家页签修剪方式专家页签隐藏层:选择初始网络(修剪前)的隐藏层数。层 1,2,3:指定在初始网络(修剪前)中每一隐藏层包含隐藏单元数。初始层数应该比使用其它训练方法的层数略微大一些。隐藏速率:指定在单个隐藏单元修剪中被剔除的隐藏单元比率数。隐藏持续次数:指定在训练未见改进时执行的隐藏单元修剪操作次数。输入速率:指定在单
23、个输入单元修剪中被剔除的输入单元比率数。输入持续次数:指定在训练未见改进时执行的输入单元修剪操作次数。持续次数:指定在训练未见改进时,网络在尝试修剪前的训练次数。总体持续次数:指定在训练未见改进时进行的隐藏单元修剪/输入单元修剪次数。在使用预设停止模型时,运用该选项。RBFN RBFN 专家页签专家页签图图21-14 RBFN专家页签专家页签RBFN聚类:指定使用的径向基函数个数或者聚类个数。这对应于隐藏层的大小。持续次数:指定在训练未见改进时网络继续训练的次数。RBF重叠:在RBFN中隐藏单元代表定义数据集中类别或区域的径向基函数。该参数有助于控制重叠的区域或类别。在训练中,正常情况下记录只
24、影响距离最近的类别。通过提高这个参数,可以增加每个隐藏单元的关联区域,使记录能够影响更远的类别。此处应指定一个正实数。21.3.2 21.3.2 21.3.2 21.3.2 神经网络节点学习速率神经网络节点学习速率神经网络节点学习速率神经网络节点学习速率神经网络训练由几个参数控制。这些参数可使用神经网络节点对话框的“专家”页签来设置。Alpha:一个用于更新训练时的权值的动量。动量倾向于保持权值沿一致方向变动。要求指定0到 1之间的一个值。较高的 Alpha值有助于避免网络的局部极小值。Eta:即学习速率,控制每次网络升级时权值的调整幅度。除 RBFN方法 Eta值恒为常数外,对其他所有训练方
25、法,Eta值随着训练的进行而变化。初始 Eta值是 Eta 的起始值。在训练中,Eta 从初始值开始,降低到 Eta 低值,然后重置为 Eta 高值,又再次降低到 Eta 低值。最后两步反复进行,直到训练结束。Eta 衰减指定Eta 开始降低时的比率,表示为从 Eta 高值到 Eta 低值的循环数。对每一个 Eta 选项都要指定值。21.3.321.3.321.3.321.3.3生成神经网络节点生成神经网络节点生成神经网络节点生成神经网络节点 生成神经网络节点表现了由神经网络节点创建的网络。它们包含了由训练过的网络所提取的所有信息,以及关于神经网络特点的信息。查看关于神经网络的信息,用鼠标右键
26、点击生成神经网络节点并且从内容菜单中选择“浏览”选项。通过在生产模型选项板中选择图标,用户可以将网络模型加入到流中,而后点击流来选择用户想将节点所放置的地点,或用鼠标右键点击图标从内容菜单中选择“加入流”。然后将用户的流与这个节点连接,以便用户将数据输入网络模型进行预测。输入生成模型节点的数据必须包括相同的输入字段,相同的类型,如同用于创建的训练数据。当用户执行一个包括一个生成神经网络节点的流时,神经网络节点从原始的训练数据处为每一个输出字段加入了一个新的字段。这个新字段包括了相对应的输出字段的网络预测。每个新预测字段的名称是每个被预测的输出的字段的名称,将“$N-”加在每个字段的前面,对于符
27、号型输出字段,也可以增加第二个新字段,包括对于这次预测的置信度,置信度字段的命名也是同一方式,将“$NC-”加在每个原始输出字段的前面。如图21-15所示为生成的神经网络节点。图图21-15 生成的神经网络节点生成的神经网络节点在一个包含连续预测相同输出字段的多个生成网络节点的流中,新的预测及置信度域名将包含用于将它们与彼此区别开来的数目。流中的第一个网络节点将使用平常名称,第二个节点将使用以“$N1-”和“$NC1-”开头的名称,第三个节点将使用以“$N2-”和“$NC2-”开头的名称,以此类推。如图21-16所示为流程中有多个神经网络节点的情况。图图21-16流程中有多个神经网络节点流程中
28、有多个神经网络节点神经网络的置信度:神经网络的置信度是为符号型输出字段而提供的,它们的计算是:(1)标志数据:置信度可如下计算:abs(0.5-Raw Output)*2 神经网络会对每笔数据进行预测,输出的值将介于 01之间,若大于0.5 则归为 True 类,小于0.5 则被归为False 类,若有一笔数据的预测值是 0.82,则这笔数据会被分为 True 类,且置信度为 abs(0.5-0.82)*2=0.64(2)集合数据:集合类输出字段将为神经网络在内部转化为标志型,因此预测变量的每个输出字段类型都会有一单独的粗糙输出值,值皆介于01之间,置信度将以(最高刻度值-第二高刻度值)来计算
29、例如,假设有一笔数据要分成四种颜色,红色的预测值为 0.32,蓝色的预测值为 0.85,绿色的预测值为 0.04,紫色的预测值为 0.27,则此笔数据会被分为蓝色类,且置信度为 0.85-0.32=0.53 生成一个过滤节点:“生成”菜单允许用户生成一个新的过滤节点来传送建立在模型结果上的输入字段。21.3.421.3.4生成神经网络节点汇总页签生成神经网络节点汇总页签图图21-17 生生成成神神经经网网络络节节点点对对话话框框汇汇总总页页签签分析:分析部分展开网络预测的准确性信息,网络的拓扑或体系结构,及相关字段的重要性,如同敏感性分析所定义的一样(如果用户需要)。如果用户已经执行一个附加
30、在这个建模节点的分析节点,则分析的相关信息也会显示在这个部分中。(1)估计的精确性:这是关于预测准确性的指标。对于符号型输出,只是一个关于预测值正确的记录的比例。对于数值型目标,计算是建立在训练数据的预测值与真实值的差上。寻找数值型字段的精度的计算公式是:(0.5-abs(真实值-预测值)/(输出域值的范围(字段最大值-最小值)*100%每个字段的精度都是如此计算,而总体的精度是训练数据中所有记录值的均值。(2)体系结构:在网络中的每个层(输入层、隐藏层、输出层)中的单元数目被列出。(3)输入的相对重要性:这个部分包括用户需要的敏感性分析的结果。输入字段按照重要性进行列表,从最重要的到最不重要
31、的。每个被列表的输入值均是它们的相对重要性的测度,变化范围介于01之间。字段:这个区域将建模过程中作为目标的字段和输入字段列表。构建设置:这个区域包括在建模过程中使用的关于设置的信息(包括使用分区数据、训练方式、停止条件、设置随机数种子、预防过度训练、样本和优化等)。训练概要:这个区域展示了模型类型、流、用户、构建日期、应用软件、模型构建所用的时间等。21.4 21.4 C5.0C5.0算法生成决策树算法生成决策树该节点使用C5.0算法生成决策树或者规则集。C5.0模型根据能够带来最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行直
32、到样本子集不能再拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。C5.0节点可以生成两种模型。决策树是对这种算法的拆分的直观描述。每一个终端,或者说叶子节点描述了训练数据的一个特定子集,而训练数据集中的每一种情况恰好属于树上的一个终端节点。与此相反,规则集是规则的集合,试图对单个的记录作出预测,规则集从决策树中推出,从某种意义上说,以一种简化或者提炼的方式陈述决策树中的信息。规则集通常能保留决策树中的绝大多数有用信息。但是使用的模型没有那么复杂。鉴于规则集的工作方式,它们不具有和决策树相同的特征。最大的区别在于,使用规则集,可能有一个以上的规则适用于任
33、一特定的记录,或者根本没有规则适用于该记录。对于多个规则的使用,每一个规则根据与其相关的可信度获得加权“投票”,最后的预测是通过综合适用于所考虑的记录的所有规则的加权“投票”来决定。如果没有规则可用,则默认的预测被指派给该记录。要求:要训练C5.0模型,需要一个或更多的输入字段以及一个或更多的字符型输出字段。设置为“两者”或者“无”的字段将被忽略。模型中所用字段其类型必须被充分实例化。优点:C5.0模型在面对数据缺失和输入字段很多的问题是非常稳健的。C5.0模型通常不需要很长的训练次数进行估计。此外,C5.0模型比一些其它类型的模型易于理解,因为从模型推出的规则有非常直观的解释。C5.0也提供
34、强大的增强技术以提高分类的精度。C5.0C5.0节点模型页签节点模型页签图图21-19 C5.0节点对话框模型页签节点对话框模型页签模型名称:指定要产生的模型名称。(1)自动:选择该选项后,模型名称将根据目标字段自动生成。这是默认设置。(2)定制:选择该选项可以为节点创建的模型指定用户自定义的模型名称。输出类型:此处指定希望最终生成的模型是决策树还是规则集。群体字符:如果选择了该选项,C5.0 会尝试将所有与输出字段格式相似的字符值合并。如果没有选择该选项,C5.0 会为用于拆分母节点的字符字段的每个值创建一个子节点。例如,如果 C5.0按 COLOR 字段(包括 RED、GREEN和 BLU
35、E 三个值)拆分,则预设创建三向拆分。但是,如果选择了该选项,并且 COLOR=RED的记录与 COLOR=BLUE 的记录非常相似,则将创建二向拆分,COLOR 为 GREEN的记录被分成一组,而 COLOR 为RED和 BLUE 的记录合为一组。使用推进:C5.0 算法使用被称作推进的方法提高其精确率。这种方法按序列建立多重模型。第一个模型以通常的方式建立。随后,建立第二个模型,聚焦于被第一个模型错误分类的记录。然后第三个模型聚焦于第二个模型的错误,等等。最后,应用整个模型集对样本进行分类,使用加权投票过程把分散的预测合并成综合预测。助推可以显著提高 C5.0 模型的精确度,但是同时也需要
36、更长的训练时间。“试验次数”选项允许控制用于助推的模型数量。这部分内容基于 Freund&Schapire 的研究成果,并进行一些专利性改进,以更好的处理噪声数据。交叉验证:如果选择了该选项,C5.0 将使用一组基于训练数据子集建立的模型,来估计基于全部数据建立的模型的精确度。如果数据集过小,不能拆分成传统意义上的训练集和测试集,这将非常有用。在计算了精确度估计值后,用于交叉验证的模型将被丢弃。可以指定倍数,或用于交叉验证的模型数目。建模和交叉验证同时执行。模式:对于简单的训练,绝大多数 C5.0参数是自动设置。“专家”模式选项允许对训练参数更多的直接控制。其设置如下:1.简单模式选项 支持:
37、在默认设置下,C5.0 会生成尽可能精确的决策树。在某些情况下,这会导致过度拟和,使模型在应用于新的数据时表现较差。选择“普遍性”项以使用不易受该问题影响的算法设置。预期的干扰(%):指定训练集中的噪声或错误数据期望比率。2.专家模式选项 修剪严重性:决定生成决策树或规则集被修剪的程度。提高纯度值将获得更小,更简洁的决策树。降低纯度值将获得更加精确的决策树。每个子分支的最小记录数:子群大小可以用于限制决策树任一分支的拆分数。只有当两个或以上的后序子分支包括来自训练集的记录不少于最小记录数,决策树才会继续拆分。默认值为 2,提高该值将有助于避免噪声数据的过度训练。辨别属性:如果选择了该选项,C5
38、0 会在建立模型前检验预测字段的有用性。被发现与分析无关的预测字段将不参与建模过程。这一选项对有许多预测字段的模型非常有用,并且有助于避免过度拟和。C5.0C5.0C5.0C5.0节点成本页签节点成本页签节点成本页签节点成本页签C5.0节点对话框成本页签用于显示错误归类损失矩阵。在某些情况下,特定类型的错误比其它类错误所引起的损失更大。例如,把高风险信用卡申请者归入低风险信用类(一种错误)比把低风险信用卡申请者归入高风险类(另一种错误)损失要大。错误归类损失允许指定不同类型预测错误之间的相对重要性。即成本对比,如图21-20所示。错误归类损失矩阵显示预测类和实际类每一可能组合的损失。所有的错
39、误归类损失都默认设置为 1.0。要输入自定义损失值,选择“使用误分类成本”,然后把自定义值输入到损失矩阵中。要改变一个错误归类损失值,选择对应于想要改变的预测类与实际类组合值的单元,删除单元中已存内容,然后输入期望损失值。图图21-20指定错误归类损失指定错误归类损失21.5 21.5 C&RTC&RT基于树的分类预测基于树的分类预测C&RT节点(即分类回归树节点)是基于树的分类预测方法。与 C5.0 相似,该方法采用递归分割方法把输入字段值相似的训练集根据输出字段拆分成不同的类。分类回归树首先检查输入字段以找出最佳分割,分割好坏用分割引起的杂质减少指数度量。一次拆分定义两个子群,每个子群随后
40、又再被分割成两个的子群,如此下去,直到达到触发某一终止准则。要求:要训练分类回归树模型,需要至少一个输入字段,恰好需要一个字符型输出字段。输出字段既可以是数值型,也可以是字符型。设置为“两者”或者“无”的字段将被忽略。模型中使用的字段类型必须被充分实例化。优点:分类回归树模型在遇到诸如缺失值和字段数量很多等问题时非常稳健。分类回归树模型通常不需要用很长的训练时间估计模型。此外,分类回归树模型比其它一些类型的模型易于理解从模型中导出的规则有直观的解释。与 C5.0 不同,分类回归树模型既可以提供字符型输出字段,也可以提供数值型输出字段。分类回归树节点页签分类回归树节点页签分类回归树节点页签分类回
41、归树节点页签图图21-21分类回归树节点对话框模型页签分类回归树节点对话框模型页签分类回归树节点对话框模型页签如图21-21所示。模型名称:指定要产生的模型名称。(1)自动:选择该选项后,模型名称将根据目标字段自动生成。这是默认设置。(2)定制:选择该选项可以为节点创建的模型指定用户定义的模型名称。使用分区数据:自动使用训练集建立模型,并使用测试集和验证集对模型评价。构建:提供两个模式,分别是“模型”和“交互树”。如果选择后者模式,可根据需要选择“使用树指令”预先设置节点分类方式。最大树状图深度:指定根节点下的最大层数(样本被递进分区的次数)。分类回归树节点专家页签分类回归树节点专家页签图图2
42、1-22分类回归树节点对话框专家页签分类回归树节点对话框专家页签最大代理数:代理是处理缺失的一种方法。对于树中的每一次分区,分类回归树识别与分区字段最相似的输入字段,这些字段是该分区字段的代理。如果必须对某一记录分类,而该记录分区字段有缺失值,则该记录分区字段的代理字段值可用于分区。提高该项设置值使对缺失值的处理更加灵活,但是也可能增加内存使用大小和训练次数。最小杂质改变:指定在树中进行新的分区所需的最小杂质改变量。如果某一分支的最佳分区引起的杂质改变量低于指定值,则不会进行分割。分类目标字段的杂质度量:这些选项允许选择度量树的杂质的方法。杂质是指树所定义的子群的输出字段的变化范围。分类回归树
43、的目标是生成子群,以使每一子群倾向于有相同或者相似的输出值换句话说,最小化树的杂质。“吉尼”是基于分支类别机率的一般杂质度量方法、“两分”是加重二元分区的杂质度量方法,更易在分区中生成大致等规模的分支。该选项只影响字符型目标字段的分区,数值型目标字段总是使用最小平方偏差杂质度量方法。停止:这些选项允许控制决定终止分区节点的准则。要了解更详细的内容,参见“21.4.3 分类回归树节点停止选项”。修剪树:修剪的内容是剔除不能显著提高树的精确度的下级分区。修剪可以简化分类回归树,使其更容易解释,而且在某些情况下提高树的一般性。如果想要整个树而不作任何修剪,取消选定该选项。使用标准误法则:该选项允许用
44、户指定更加自由的修剪法则。标准误修剪法则让分类回归树选择最简单的树,其风险估计值接近(但是可能大于)风险最小子树的风险估计值。“乘数”表明修剪树与具有最小估计风险的子树之间的允许估计风险差异程度。例如,如果指定为“2”,则可能选择其估计风险比整棵树标准误的二倍还要大的树。先验概率:这些选项允许设置目标字段类别的先验概率。要了解更详细的内容,参见“21.4.4分类回归树先验概率选项”。分类回归树节点停止选项分类回归树节点停止选项 这些选项控制树的构造。停止法则决定何时终止分区树的具体分支。设置最小分支数目以避免分割出过小的子群。“父分支(%)中的最小记录数”避免在被分割节点(父节点)记录数小于指
45、定值时对该节点的分割。“子分支(%)中的最小记录数”避免在拆分节点所生成每一分支记录数均小于指定值时对该节点的分割。使用百分比:允许按照占整个训练集的百分比来指定大小。使用绝对值:允许用绝对记录数来指定大小。图图21-23 分类回归树节点停止选项分类回归树节点停止选项分类回归树节点先验概率选项分类回归树节点先验概率选项 这些选项允许在预测字符型目标字段时指定各类的先验概率。先验概率是目标字段每一类在训练集所描述的总体中的相对次数的估计值。换句话说,先验机率是在根本不知道预测值前对每个可能的目标字段值所作的概率估计。有三种设置先验概率的方法,分别是:基于训练数据:这是默认设置。先验机率基于各类在
46、训练集中的相对次数。对于所有类都相等:各类的先验机率指定为 1/k,k 为目标类数。图图21-24分类回归树节点先验概率选项分类回归树节点先验概率选项定制:可以用户指定先验概率。先验概率起始值为各类相等。可以将各类的先验概率调整为用户定义值。要调整某一具体类的概率,选择表格中对应于该类的概率单元格,删除单元格中的内容,输入指定值。所有类的先验概率值总和为 1.0(概率约束)。如果和不为 1.0,Clementine会给出警告并自动规范化各值。这项自动调整在实施概率约束的同时保留各类的比例。可以在任何时候点击“标准化”按钮进行调整。要把表格中值重置为各类值相等,点击“均衡”按钮。使用错误分类损失
47、调整先验概率:该选项允许根据错误分类损失调整先验概率。对于使用“两分”杂质度量的分类回归树,该选项将损失信息直接置入树的生长过程。(如果没有选择该选项,则损失信息只在基于“两分”杂质度量时,用于对记录分类和计算树的风险估计值)。分类回归树节点成本页签分类回归树节点成本页签图图21-25分类回归树对话框成本页签分类回归树对话框成本页签21.5.421.5.4生成决策树生成决策树图图21-26 C&RT节节点点对对话话框框模模型型页页签签 当模型页签打开时,规则部分一开始是隐藏的,只有规则标签是可视的。若要打开一个目录或一条规则,使用左边的“扩展”控件,或双击该项。工具栏提供了扩展或隐藏多个规则的
48、控件。决策树是通过递归的分割基于输入域值的数据来工作的。数据分割被称为分支。根包含了所有的数据记录。基于特定的输入阈值,根被分割为子集或子分支。每个子分支可以进一步分支为子分支,以此反复。树的最底层是没有子分支的。这类分支被称之末端分支或叶子。决策树浏览器展示了定义每次分割或分支的值以及在分割中的一条对记录的输出阈值的总结。如果用户从工具栏中选择“显示/隐藏实例和置信度图表”按钮,每条规则也会显示运用规则的记录数的信息和这些规则成立的记录的比例。如果用户选择工具栏中的“显示附加信息面板”按钮,在底部窗口将会出现一个包含了所选规则的细节信息面板,这个信息面板包括三个页签,分别是:历史:这个页签记
49、录了从根节点到所选节点的分裂条件。这提供了一个决定何时将一个记录赋值给所择节点的一系列条件。所有条件为真的记录将被赋值给该节点。如图21-27所示。图图21-27 展示了历史页签的模型页签展示了历史页签的模型页签频数:对于带有符号型目标字段的模型,该页签对每个可能的目标值,显示了包含该目标值的节点的记录数目(如图21-28所示)。对于带有数值型目标的模型,这个页签是无效的。图图21-28展示了频数页签的模型页签展示了频数页签的模型页签 代用项:对于C&RT模型,最初始的分裂和对于被选择节点的任何以此代替分裂均被显示。这告诉用户带有缺失值的记录对于初始分裂将如何在分裂时被分类(如图21-29所示
50、图图21-29 展示了代用项页签的模型页签展示了代用项页签的模型页签 决策树查看器页签决策树查看器页签 查看器页签展示了一个对于树形结构的详细的图表展示(如图21-30所示)。图图21-30生生成成C&RT节节点点对对话话框框查查看看器器页页签签在大部分的案例中,由于全部树的大小,只有它的一部分可以在决策树浏览中看见。用户可以滚动窗口来浏览树的其它部分,或者使用树的地图窗口(如图21-31所示)来定位某个不同的树的区域。显示树的地图窗口,只需点击工具栏中的树形地图按钮。图图21-31 地图窗口地图窗口 用户可以展示树中的每一个节点,通过点击工具栏的按钮展示为列表显示或图形显示,或两者兼有。