数据挖掘与商务智能课程实验.doc

上传人:土8路 文档编号:10268648 上传时间:2021-05-04 格式:DOC 页数:39 大小:1.60MB
返回 下载 相关 举报
数据挖掘与商务智能课程实验.doc_第1页
第1页 / 共39页
数据挖掘与商务智能课程实验.doc_第2页
第2页 / 共39页
数据挖掘与商务智能课程实验.doc_第3页
第3页 / 共39页
数据挖掘与商务智能课程实验.doc_第4页
第4页 / 共39页
数据挖掘与商务智能课程实验.doc_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《数据挖掘与商务智能课程实验.doc》由会员分享,可在线阅读,更多相关《数据挖掘与商务智能课程实验.doc(39页珍藏版)》请在三一文库上搜索。

1、数据挖掘与商务智能课程实验指导实验一 数据仓库的构建一、实验目的及要求(一)实验目的1理解数据库与数据仓库之间的区别与联系;2掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法;3掌握数据仓库建立的基本方法及其相关工具的使用。(二)实验要求利用实验室和指导教师提供的实验软件,认真完成规定的实验项目,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。实验完成后,应根据实验情况写出实验报告。二、实验设备及软件基于MS SQL Server 2005 服务系统以及Analysis Services系统。三、实验内容以SQL Server 2005为系统平台

2、,设计、建立数据库,并以此为基础创建数据仓库。4、 实验步骤创建 Microsoft SQL Server 2005 Analysis Services (SSAS) 项目后,通常通过定义此项目将要使用的一个或多个数据源来开始使用此项目。定义数据源时,将定义要用于连接此数据源的连接字符串信息。 在以下任务中,把 AdventureWorksDW 示例数据库定义为 Analysis Services Tutorial 项目的数据源。为了实现本教程教学目的,此数据库位于您的本地计算机上,而源数据库通常驻留在一台或多台远程计算机中。 定义新的数据源1. 在解决方案资源管理器中,右键单击“数据源”,然

3、后单击“新建数据源”。将打开数据源向导。2. 在“欢迎使用数据源向导”页上,单击“下一步”。 将显示“选择如何定义连接”页。在该页上,可以基于新连接、现有连接或以前定义的数据源对象来定义数据源。以前定义的数据源对象是当前项目中或当前解决方案的其他项目中的现有数据源定义。在本教程中,将基于新连接定义新数据源。3. 在“选择如何定义连接”页上,单击“新建”。 将显示“连接管理器”对话框。在此对话框中,可定义数据源的连接属性。连接管理器是将在运行时使用的连接的逻辑表示形式。例如,连接管理器包括一个在设计时设置的连接字符串属性;在运行时,将通过使用连接字符串属性中的值创建一个物理连接。4. 在“提供程

4、序”列表中,确保已选中“本机 OLE DBMicrosoft OLE DB Provider for SQL Server”。Analysis Services 还支持“提供程序”列表中显示的其他访问接口。5. 在“服务器名称”文本框中,键入 localhost。要连接到本地计算机上的命名实例,请键入 localhost。将项目部署到 Analysis Services 的特殊实例时,Analysis Services 引擎将连接到 Microsoft SQL Server 的默认实例(位于 Analysis Services 实例所在的计算机上)的 Adventure Works DW 数据

5、库。如果在定义数据源时指定特定的计算机名或 IP 地址,则项目或部署的应用程序将与指定计算机而不是本地计算机建立连接。通过 Analysis Services 部署向导,可以在部署时指定源数据的实际服务器名。6. 确保已选中“使用 Windows 身份验证”。在“选择或输入数据库名称”列表中,选择 AdventureWorksDW。 下图显示了包含到目前为止已定义设置的“连接管理器”。7. 单击“确定”,然后单击“下一步”。将显示“模拟信息”页。在该向导的此页上,可以定义 Analysis Services 用于连接数据源的安全凭据。在本教程中,您将选择 Analysis Services 服

6、务帐户,因为该帐户具有访问 Adventure Works DW 数据库所需的权限。8. 选择“使用服务帐户”,然后单击“下一步”。 下图显示了随后出现的“完成向导”页。9. 在“完成向导”页上,单击“完成”以创建名为 Adventure Works DW 的新数据源。 下图显示了解决方案资源管理器的“数据源”文件夹中的新数据源。定义多维数据集及其属性1. 在解决方案资源管理器中,右键单击“多维数据集”,然后单击“新建多维数据集”。2. 在“欢迎使用多维数据集向导”页上,单击“下一步”。 3. 在“选择生成方法”页上,确认已选中“使用数据源生成多维数据集”选项和“自动生成”选项,然后单击“下一

7、步”。 4. 在“选择数据源视图”页上,确认已选中 Adventure Works DW 数据源视图,然后单击“下一步”。5. 该向导扫描在数据源对象中定义的数据库中的表,以标识事实数据表和维度表。事实数据表包含相关的度量值,如售出的部件数等。维度表包含有关这些度量值的信息,如售出产品、售出该产品的月份等。 6. 在向导标识完事实数据表和维度表后,请在“检测事实数据表和维度表”页上单击“下一步”。7. 在“标识事实数据表和维度表页上,将显示该向导所标识的事实数据表和维度表。 对于 Analysis Services Tutorial 项目,该向导标识四个维度表和一个事实数据表。为该事实数据表定

8、义了一个度量值组。 每个维度表必须链接到多维数据集中的一个事实数据表。维度表具有下列关系类型之一: 与事实数据表的直接主键-外键关系。这称为“星型架构”。通过某个其他表与事实数据表的间接主键-外键关系。这称为“雪花型架构”。 在“标识事实数据表和维度表”页上,还可以指定时间维度表,然后将时间属性与指定维度表中的列相关联。时间属性与指定时间维度表中的列相关联是基于时间的多维表达式 (MDX) 计算(如 YTD 和 ParallelPeriod)所必需的,而且时间智能向导将使用这一关联定义与时间相关的计算成员。 下图显示了该向导的“标识事实数据表和维度表”页,其中为 Analysis Servic

9、es Tutorial 项目选择了事实数据表和维度表。8. 在“标识事实数据表和维度表”页的“时间维度表”列表中,选择 Time,然后单击“下一步”。9. 在“选择时间段”页上,将时间属性名称映射到以指定为“时间”维度的维度为基础的维度表中的相应列。根据以下列表映射这些属性: 将 Year 属性映射到 CalendarYear 列。 将 Half Year 属性映射到 CalendarSemester 列。 将 Quarter 属性映射到 CalendarQuarter 列。 将 Month 属性映射到 EnglishMonthName 列。 将 Date 属性映射到 FullDateAlte

10、rnateKey 列。下图演示了该向导中的这些列映射。10. 单击“下一步”按钮进入向导的下一页。 随即会出现“选择度量值”页,其中显示了该向导所选择的度量值。该向导选择它标识为事实数据表的表中的各数值数据类型列作为度量值。在本课中,只定义了一个度量值组。但在第 4 课中,您将使用多个度量值组。11. 在“选择度量值”页上,查看在“Internet 销售”度量值组中选择的度量值,然后清除下列度量值的复选框: 促销关键字 货币关键字 销售区域关键字 修订号该向导选择事实数据表中未链接到维度的所有数值列作为度量值。但这四列不是实际的度量值。前三列是将事实数据表与未在此多维数据集的初始版本中使用的维

11、度表链接起来的键值。下图显示了“选择度量值”页上已清除的复选框和其余选定维度。12. 单击“下一步”。由于您前面已在该向导选择了“自动生成”选项,因此该向导将扫描层次结构。 该向导对定义为维度表的表中的各列记录进行采样,以确定列之间是否存在层次结构关系。层次结构关系是多对一关系,例如“市/县”和“省/市/自治区”之间的关系。13. 在该向导完成对维度的扫描和对层次结构的检测后,请在“检测层次结构”页上单击“下一步”。 14. 在“查看新建维度”页上,通过展开树控件显示该向导检测到的三个维度的层次结构和属性,查看其中每个维度的维度层次结构。 下图显示了“查看新建维度”页上的这三个维度。15. 依

12、次展开“产品” 维度和“属性”,然后清除 Large Photo 复选框。单击“下一步”。Large Photo 列在本教程项目的多维数据集中不是很有用,并且由于它可能会占用大量空间,因此最好将其从多维数据集中删除。16. 在“完成向导”页上,将多维数据集的名称更改为 Analysis Services Tutorial。在该页上,也可以查看多维数据集的度量值组、度量值、维度、层次结构和属性。17. 单击“完成”按钮以完成向导。 在解决方案资源管理器的 Analysis Services Tutorial 项目中,Analysis Services Tutorial 多维数据集显示在“多维数据

13、集”文件夹中,而三个数据库维度则显示在“维度”文件夹中。此外,多维数据集设计器在开发环境的中央显示 Analysis Services Tutorial 多维数据集。请注意,在 Business Intelligence Development Studio 的其他选项卡上也已打开数据源视图设计器。18. 在多维数据集设计器的工具栏上,将缩放级别更改为 50,以便轻松查看多维数据集中的维度表和事实数据表。19. 下图显示了该设计器中的维度表和事实数据表。请注意,事实数据表是黄色的,维度表是蓝色的。下图显示了该设计器中的维度表和事实数据表。请注意,事实数据表是黄色的,维度表是蓝色的。 20. 在

14、“文件”菜单上,或者在 BI Development Studio 的工具栏上,单击“全部保存”。这将保存到目前为止您在 Analysis Services Tutorial 项目中所做的更改,您可以根据需要在此处停止教程,以后再继续。实验二 多维数据组织与分析(OLAP)一、实验目的及要求(一)实验目的1理解维(表)、成员、层次(粒度)等基本概念及其之间的关系;2理解多维数据集创建的基本原理与流程;3理解并掌握OLAP分析的基本过程与方法;(二)实验要求利用实验室指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出多维数据组织模

15、型及其OLAP操作过程。实验完成后,应根据实验情况写出实验报告。二、实验设备及软件安装 SQL Server 2005 服务系统、Analysis Services系统。三、实验内容1运用Analysis Server工具进行维度、度量值以及多维数据集的创建(模拟案例)。2使用维度浏览器进行多维数据的查询、编辑操作。3对多维数据集进行切片、切块、旋转、钻取操作。四、实验步骤在多维数据集设计器中检查多维数据集和维度的属性1. 在多维数据集设计器中,在“多维数据集结构”选项卡的“度量值”窗格中,展开“Internet 销售”度量值组。 此时将显示为“Internet 销售”度量值组定义的度量值。可

16、以将这些度量值拖到所需的顺序中,以此更改这些度量值的顺序。度量值的顺序将影响某些客户端应用程序对这些度量值进行排序的方式。度量值组被命名为 Internet Sales,这是因为基础事实数据表在数据源视图中的友好名称为 InternetSales。请注意,大写字母“S”前自动添加了一个空格,以增加该名称的用户友好特性。度量值组及其包含的每个度量值都有属性,在“属性”窗口中可以编辑这些属性。 下图显示了多维数据集设计器的“度量值”窗格中的度量值组和度量值。2. 在多维数据集设计器中,在“多维数据集结构”选项卡的“维度”窗格中,检查 Analysis Services Tutorial 多维数据集

17、中的多维数据集维度。 请注意,尽管在数据库级别只创建了三个维度(如解决方案资源管理器所示),但在 Analysis Services Tutorial 多维数据集中却有五个多维数据集维度。该多维数据集包含的维度比数据库多,其原因是,根据事实数据表中与时间相关的不同事实数据,“时间”数据库维度被用作三个与时间相关的单独多维数据集维度的基础。这些与时间相关的维度也称为“角色扮演维度”。使用三个与时间相关的多维数据集维度,用户可以按照下列三个与每个产品销售相关的单独事实数据在多维数据集中组织维度:产品订单日期、履行订单的到期日期和订单发货日期。通过将一个数据库维度重复用于多个多维数据集维度,Anal

18、ysis Services 简化了维度管理,降低了磁盘空间使用量,并减少了总体处理时间。3. 在“多维数据集结构”选项卡的“维度”窗格中,展开“客户”,再单击“编辑客户”。此时,在维度设计器中将显示 Customer 维度。(请注意,数据源视图设计器和多维数据集设计器仍处于打开状态。)维度设计器包含下列三个选项卡:“维度结构”、“翻译”和“浏览器”。请注意,“维度结构”选项卡包含下列三个窗格:“属性”、“层次结构和级别”和“数据源视图”。“属性”窗格显示多维数据集向导设计的属性,“层次结构和级别”窗格显示多维数据集向导定义的用户层次结构。 在维度设计器的“维度结构”选项卡上,可以添加、删除和编

19、辑层次结构、级别和属性。下图显示了维度设计器的“维度结构”选项卡。4. 在设计环境中单击选项卡,或在解决方案资源管理器中右键单击多维数据集后单击视图设计器,可以切换到多维数据集设计器。5. 在多维数据集设计器中,单击“维度用法”选项卡。 在此 Analysis Services Tutorial 多维数据集视图中,可以看到“Internet 销售”度量值组所用的多维数据集维度。如果多维数据集包含多个度量值组,则多维数据集维度可能只用于其中有些度量值组,而不用于其他度量值组。此外,可以定义每个维度及使用该维度的每个度量值组之间的关系类型。下图显示了多维数据集设计器的“维度用法”选项卡。6. 在“

20、Internet 销售”度量值组和“客户”维度的相交处,单击“客户”旁边的“全名”字段,再单击省略号按钮(.)。 此时将出现“定义关系”对话框。在此对话框中,可以定义特定度量值组中的自定义维度属性。默认情况下,维度在各个度量值组中的行为均相同。但是,在不同的度量值组中它们可能会有不同的行为。请注意,“客户”维度与“Internet 销售”度量值的关系是常规关系,即,DimCustomer 维度表直接与 FactInternetSales 度量值组表联接。另请注意,此维度的粒度位于最低级别(即“客户”级别),但可以定义不同的粒度级别。在第 5 课中,将学习如何定义自定义粒度级别。下图显示了“定义

21、关系”对话框。7. 单击“高级”。此时将显示“度量值组绑定”对话框,可在该对话框中更改每个属性的绑定以及定义空值处理设置。属性绑定可以指定属性绑定到的基础维度表中的列。默认情况下,此设置继承自维度;很少在度量值组级别更改此设置。通过空值处理设置,可以定义 Analysis Services 在处理期间在度量值组级别处理空值的方式;这些设置将覆盖维度级别的任何设置。下图显示了“度量值组绑定”对话框。8. 单击“取消”,再次单击“取消”,返回多维数据集设计器。在本任务中,我们不会检查“计算”、“KPI”、“操作”、“透视”和“翻译”选项卡,因为在教程项目中尚未定义相关对象。9. 单击“分区”选项卡

22、。 多维数据集向导可以使用不带聚合的多维联机分析处理 (MOLAP) 存储模式,为多维数据集定义单个分区。通过 MOLAP,所有叶级别数据和所有聚合均存储在多维数据集中,以便最大限度地提高性能。聚合是预先计算好的数据汇总,聚合可以在问题提出之前准备好答案,从而可以缩短查询响应时间。通常在 Analysis Services 项目最后部署到生产服务器之前定义聚合,在开发期间不定义聚合。请注意,在“分区”选项卡上可以定义其他分区、存储设置和写回设置。本教程不包含定义聚合和分区的内容。 下图显示了多维数据集设计器中的“分区”选项卡。10. 单击“浏览器”选项卡。 请注意,由于浏览多维数据集尚未部署到

23、 Analysis Services 实例中,因此无法对其进行浏览。此时,Analysis Services Tutorial 项目中的多维数据集只是一个可以部署到任何 Analysis Services 实例的多维数据集定义。部署和处理多维数据集时,将在 Analysis Services 实例中创建定义的对象,然后用基础数据源的数据填充这些对象。 下图显示了多维数据集设计器中的“浏览器”选项卡。在下面的任务中,您将浏览 Analysis Services Tutorial 多维数据集和它的每个维度,以确定为了改进该多维数据集的功能而需要执行的更改类型。浏览已部署的多维数据集1. 通过单击

24、Business Intelligence Development Studio 中的“客户”选项卡,切换到“客户”维度的维度设计器,然后单击“浏览器”选项卡。 “省/市/自治区名 地域”用户层次结构将显示在“浏览器”选项卡的工具栏上的“层次结构”列表中;当前级别的名称“(全部)”将直接显示在该工具栏下方,而“(全部)”级别的单独成员将显示在浏览器窗格中。默认情况下,“(全部)”级别的唯一成员的名称是“全部”并且可见。对于方案维度等维度,可以更改或隐藏此级别的名称。2. 在“级别和成员”窗格中,展开“(全部)”级别的“全部”级别成员以显示“省/市/自治区名”级别的成员。展开此级别的 Alaba

25、ma 成员以显示“地域”级别。展开“地域”级别的 280 成员,以在“客户”级别查看该成员。使用维度设计器的“级别和成员”窗格,可以在多维数据集向导所设计的用户层次结构中轻松查看每个级别的成员,因而可以确定需要进行的功能更改。请注意以下几点内容:此层次结构没有定义“市/县”级别,“地域”级别的成员是 DimGeography 表键值,“客户”级别显示客户的电子邮件地址而不是客户的姓名。下图显示了“级别和成员”窗格中的展开层次结构。3. 在“客户”维度的维度设计器的工具栏上,在“层次结构”列表中选择“英语国家/地区区域名”,然后在“级别和成员”窗格中展开“全部”级别成员。随即会显示“英语国家/地

26、区区域名”属性的属性层次结构。默认情况下,维度的每个属性都具有包含以下两个级别的层次结构:“(全部)”级别和包含每个属性成员的级别。第二个级别的名称是属性名本身。下图显示了“英语国家/地区区域名”属性的层次结构。4. 在解决方案资源管理器中,双击“维度”文件夹中的“时间”。随即在 BI Development Studio 的维度设计器中打开“时间”维度。5. 在“时间”维度的维度设计器中,单击“浏览器”选项卡。 随即将在“层次结构”列表中显示用户层次结构 CalendarYear - CalendarSemester - CalendarQuarter - EnglishMonthName

27、- FullDateAlternateKey。 6. 展开“全部”级别成员以显示 CalendarYear 级别的成员。展开 2003 成员以显示 CalendarSemester 级别的成员。展开 1 成员以显示 CalendarQuarter 级别的成员。展开 2 成员以显示 EnglishMonthName 级别的成员。展开 June 成员以显示 FullDateAlternateKey 级别的成员。 下图显示了为显示 FullDateAlternateKey 属性而扩展的层次结构。7. 单击 Analysis Services Tutorial 多维数据集的设计器选项卡,切换到 BI

28、Development Studio 中的多维数据集设计器。选择“浏览器”选项卡,然后在设计器的工具栏上单击“重新连接”。也可以单击浏览器窗格中间显示的“单击此处可再次尝试加载浏览器”链接。 该设计器的左窗格显示了 Analysis Services Tutorial 多维数据集的元数据。您会看到“透视”和“语言”选项显示在“浏览器”选项卡的工具栏上。您还会看到“浏览器”选项卡包含两个位于“元数据”窗格右侧的窗格:上面的窗格是“筛选器”窗格,下面的窗格是“数据”窗格。下图突出显示了多维数据集设计器中的各个窗格。8. 在“元数据”窗格中,依次展开“度量值”、“Internet 销售”,然后将“销

29、售额”度量值拖到“数据”窗格的“将合计或详细信息字段拖至此处”区域。 9. 在“元数据”窗格中,展开“客户”。 请注意,“客户”维度中的所有属性层次结构均显示在“元数据”窗格中。“客户”维度列表还包含“省/市/自治区名 地域”用户层次结构。可以使用任意一个或多个属性层次结构来确定多维数据集的维度。不过,对于业务用户而言,各维度在同一级别包含如此多的可见层次结构,可能会很难进行浏览。10. 将“英语国家/地区区域名”属性层次结构拖到“数据”窗格的“将行字段拖至此处”区域。现在便可查看按各客户所在国家/地区确定维度的 Internet 销售。下图显示了这一确定维度的过程。11. 在“元数据”窗格中

30、,依次折叠“客户”和“度量值”,展开“产品”,右键单击“产品系列”,然后单击“添加到列区域”。现在可以查看按国家/地区和产品系列确定维度的 Internet 销售。不过,您会看到每个产品系列由单个字母表示,而不是由产品系列的全名表示。下图显示了按国家/地区和产品系列确定维度的 Internet 销售。12. 在“元数据”窗格中,折叠“产品”,展开“订购日期”,然后将 Order Date.Calendar Quarter 拖到“数据”窗格的“将筛选器字段拖至此处”区域。13. 在“数据”窗格的筛选器字段区域中,单击 Order Date.Calendar Quarter 旁边的向下箭头,清除“

31、(全部)”旁边的复选框,选中“1”旁边的复选框,然后单击“确定”。 随即可查看按国家/地区和产品系列确定维度的、第一日历季度的 Internet 销售。不过,您实际上查看的是各日历年度而不是任何特定日历年度的第一日历季度值。下图显示了按国家/地区和产品系列确定维度的、每年第一日历季度的 Internet 销售。14. 在“元数据”窗格中,展开 Order Date.CalendarYear,然后展开 CalendarYear。15. 右键单击 CalendarYear 属性层次结构的 2002 成员,然后单击“添加到子多维数据集区域”。随即将在“数据”窗格上方的“筛选器”窗格中显示“订购日期”

32、维度的 2002 成员,并限定在“数据”窗格中显示的值。这等效于多维表达式 (MDX) 查询语句中的 WHERE 子句。有关详细信息,请参阅 MDX 查询基础知识 (MDX)。 每一产品系列的 Internet 销售的日历季度 1 的值(按国家/地区确定维度)现被限定为 2002 年,如下图所示。 17.1. 如何启用多维数据集的钻取功能 1. 在Analysis Manager 树窗格中,在“教程”数据库下,展开“多维数据集”文件夹,右击“Sales” 多维数据集,然后单击“编辑”命令。 2. 在多维数据集编辑器中,单击“工具”菜单中的“钻取选项”命令。 3. 在“多维数据集钻取选项”对话框

33、中选择“启用钻取”复选框。 4. 单击“全选”,然后单击“确定”按钮。 5. 保存,然后关闭多维数据集编辑器。 17.2. 如何给角色提供钻取权限 1. 在Analysis Manager 树窗格中,在“教程” 数据库下,展开“多维数据集”文件夹,右击“Sales” 多维数据集,然后单击“管理角色”命令。 2. 多维数据集角色管理器出现,显示Sales 多维数据集现有角色的列表。 3. 在多维数据集角色管理器中,单击“Management”角色,然后在“钻取”列中单击扩展按钮(“.”)。 (还可以单击“编辑”。) 4. “编辑多维数据集角色”对话框出现。选中“允许钻取”复选框。 5. 单击“确

34、定”按钮。 6. 在多维数据集角色管理器中,“Management”角色显示钻取已启用。 7. 关闭多维数据集角色管理器。17.3. 如何使用Analysis Manager 分析管理器深化到源系统 1. 在Analysis Manager 树窗格中,在“教程”数据库下,展开“多维数据集”文件夹,右击“Sales” 多维数据集,然后单击“浏览数据”命令。 2. 多维数据集浏览器出现,显示在多维数据集内汇总的数据。通过双击“USA”、“WA”和 “REDMOND”级别,展开“Country”级别。为了更好地查看数据,可能需要最大化“多维数据集浏 览器”窗口。右击“Abbey”的单位销售额,然后单

35、击“钻取”命令。 3. “钻取数据”对话框显示源系统中的事务,这些事务在Analysis Services 中创建了该单元值。 4. 关闭“钻取数据”对话框。 5. 关闭多维数据集浏览器。 实验三 数据挖掘一、实验目的及要求(一)实验目的1理解数据挖掘的基本概念及其过程;2理解数据挖掘与数据仓库、OLAP之间的关系3理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。(二)实验要求利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出实验案例的数据挖掘模型。实验完成后,应根据实验情况写出实验报告。二、实验设备及

36、软件安装 SQL Server 2005 服务系统、Analysis Services系统。三、实验内容将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft 决策树”算法在客户群中找出会员卡选择模式。请将要挖掘的维度(事例维度)设置为客户,再将 Member_Card 成员的属性设置为数据挖掘算法识别模式时要使用的信息。然后选择人口统计特征列表,算法将从中确定模式:婚姻状况、年收入、在家子女数和教育程度。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式设计新的会员卡,使其适应申请各类会员卡的客户类型四、实验步骤1创建揭示客户模式的数据挖掘模型 在 Anal

37、ysis Manager 树视图中,展开“多维数据集”文件夹,右击“Sales”多维数据集,然后选择“新建挖掘模型”命令。 打开挖掘模型向导。在“选择数据挖掘技术”步骤中的“技术”框中选择“Microsoft 决策树”。单击“下一步”按钮。 在“选择事例”步骤中,在“维度”框中选择“Customer”。在“级别”框中,确保选择了“Lname”。单击“下一步”按钮。 在“选择被预测实体”步骤中,选择“事例级别的成员属性”。然后在“成员属性”框中选择“Member Card”。 单击“下一步”按钮。 在“选择训练数据”步骤中,滚动到“Customer”维度,清除“Country”、“State P

38、rovince”和“City”框(因为不需要在聚集级别上而只需要在单独的客户级别上确定客户模式)。单击“下一步”按钮。 在“创建维度和虚拟多维数据集(可选)”步骤中,在“维度名称”框中输入“Customer Patterns”。然后在“虚拟多维数据集名称”框中输入“Trained Cube”。单击“下一步”按钮。 在最后的步骤中,在“模型名称”字段中键入“Customer patterns discovery”。确保选择了“保存并开始处理”。单击“完成”按钮。 出现一个窗口,显示模型正在处理之中。处理完成之后,出现一则消息,说明“已成功完成处理”,然后单击“关闭”按钮。2读取客户决策树 现在已

39、在 OLAP 挖掘模型编辑器中。可以使用编辑器编辑模型属性或者浏览其结果。最大化 OLAP 挖掘模型编辑器。 决策树显示于右窗格中。其中包括四个窗格。中间的“内容详情”窗格 (1) 显示焦点所在的决策树的部分。“内容选择区”窗格 (2) 显示树的完整视图。该窗格使您可以将焦点设置到树的其它部分。其它的两个窗格分别是“特性”窗格 (3)(特性信息可以用“合计”选项卡以数值方式查看或者用“直方图”选项卡以图形方式查看)和与焦点所在节点相关联的“节点路径”区域 (4)。 在“内容详情”窗格的决策树区域中,颜色代表“事例”的密度(在本事例中为:客户的密度)。颜色越深则节点中包含的事例就越多。 单击“全

40、部”节点。该节点为黑色,因为它代表 (7632) 事例的 100%。7632 代表 1998 年活动的客户数目(即 Sales 多维数据集中有事务记录的客户)。这个数字也说明在 1998 年并非所有的客户都是活动的,因为我们从“Customer”维度的“Lname”级别中所包含的 9991 个客户中只得到 7632 个事例。 特性窗格显示“全部”节点中,所有事例的 55.83%(或者说 4263 个示例)可能选择铜卡 (Bronze);11.50% 可能选择金卡 (Golden);23.32% 可能选择普通卡 (Normal);9.34% 可能选择银卡 (Silver)。如果没有显示百分比,则

41、可以调整“特性”窗格中“合计”面板的“可能性”列的大小。 如果选择了树的不同节点,此百分比将会更改。让我们调查一下哪些客户可能选择金卡。若要执行此操作,则需要重新画出树以便勾画出金卡的高密度区。在右下角的“树颜色基于”字段中选择“Golden”。该树显示另一种颜色模式。可以看出“Customer.Lname.Yearly Income = $150K+”节点的密度高于其它任何节点。 树的第一个级别由“yearly income”属性决定。树的组织由算法决定,其基础是该属性在输出中的重要性。这意味着“yearly income”属性是最重要的因素,它将决定客户可能选择的会员卡的类型。选择“Cus

42、tomer.Lname.Yearly Income = $150K+”节点。该特性窗格显示收入较多的客户中,45.09% 的客户可能会选择金卡。这个百分比要比“全部”节点中的 (11.50%) 高得多。当继续在树中做进一步调查时,让我们调查一下这些百分比是如何演化的。 双击“Customer.Lname.Yearly Income = $150K+”节点。 该树现在只显示“Customer.Lname.Yearly Income = $150K+”节点下的子树。 选择“Customer.Lname.Marital Status = M”节点。在“节点路径”窗格中,可以看到包含于该节点的客户的完

43、整的特征定义:收入高于 150000 美元且已婚的客户。该“特性”窗格现在显示:与上一级别 (45.09%) 相比,较高百分比 (81.05%) 的客户可能会选择金卡。 我们再返回到顶层,进行一种与此不同的调查,即调查可能选择普通卡的客户。若要返回顶层节点,可以单击从“Customer.Lname.Yearly Income = $150K+”节点左面伸出来的线(方法 1)或者使用“内容选择区”回到树的顶部(方法 2)。 在“树颜色基于”字段中选择“Normal”。树刷新节点的颜色之后,可以看到“Customer.Lname.Yearly Income = $150K+”节点的颜色非常浅;这意

44、味着这些客户选择普通卡的可能性非常小。另一方面,可以看到“Customer.Lname.Yearly Income = $10K $30K”节点的颜色非常深。这意味着这些客户选择普通卡的可能性非常高。“特性”窗格显示在此年收入范围内的客户中,91.92% 的客户可能会选择普通卡。树还显示已无法对此节点进行进一步调查。这意味着在树的这个分支中,年收入是决定客户选择普通卡的可能性的唯一因素。 可以查看树的其它分支并调查客户选择一种卡而不选择另一种卡的可能性。市场部可以使用此信息来确定最可能选择某种类型卡的客户的特征。根据这些特征(收入、子女数、婚姻状况等等),可以重新定义会员卡服务和方案以便更好地

45、适应其客户。完成对决策树的分析之后,请关闭 OLAP 挖掘模型编辑器3浏览数据挖掘维度 在 Analysis Manager 树视图中,展开“共享维度”文件夹,右击“Customer patterns”维度,然后单击“浏览维度数据”命令。 维度浏览器打开。展开“全部”成员维度。 选择“Customer.Lname.Yearly Income = $150K+”成员。在“自定义成员公式”窗格中,出现定义该节点的 MDX 公式。 可以继续展开维度并考察该节点的属性。完成时,单击“关闭”按钮。4浏览数据挖掘虚拟多维数据集 在 Analysis Manager 树窗格中,展开“多维数据集”文件夹,右击

46、“Trained Cube”多维数据集,然后选择“浏览数据”命令。 多维数据集浏览器打开。最大化该多维数据集浏览器。 将“Customer Patterns”维度拖动到“MeasuresLevel”框,以便用“Customer Patterns”维度替换“Measures”维度。 按下列顺序双击,展开“Customer”维度:“USA”-“WA”-“Redmond”。显示 Redmond 地区的所有客户。 双击“级别 01”展开“Customer”维度。显示“Customer Patterns”维度的第一个级别。 关闭多维数据集浏览器。五、实验思考题 1 数据挖掘与OLAP分析之间的区别。2

47、SQL Server环境下数据挖掘的基本模式。3 基于决策树的数据挖掘的基本特点与过程。4 数据挖掘与多维数据集中维度之间的关系。 聿莅螂螁芅芁莈袄肈膇莇羆芃蒅莇蚆肆莁蒆螈芁芇蒅袀肄膃蒄肂袇薂蒃螂膃蒈蒂袄羅莄蒁羇膁芀蒁蚆羄膆蒀蝿腿蒅蕿袁羂莁薈羃膇芇薇蚃羀芃薆袅芆腿薆羈肈蒇薅蚇芄莃薄螀肇艿薃袂节膅蚂羄肅蒄蚁蚄袈莀蚀袆肃莆蚀羈羆节虿蚈膂膈蚈螀羄蒆蚇袃膀莂螆羅羃芈螅蚅膈膄螄螇羁蒃螄罿膇葿螃肂聿莅螂螁芅芁莈袄肈膇莇羆芃蒅莇蚆肆莁蒆螈芁芇蒅袀肄膃蒄肂袇薂蒃螂膃蒈蒂袄羅莄蒁羇膁芀蒁蚆羄膆蒀蝿腿蒅蕿袁羂莁薈羃膇芇薇蚃羀芃薆袅芆腿薆羈肈蒇薅蚇芄莃薄螀肇艿薃袂节膅蚂羄肅蒄蚁蚄袈莀蚀袆肃莆蚀羈羆节虿蚈膂膈蚈螀羄蒆蚇袃膀莂螆羅羃芈螅蚅膈膄螄螇羁蒃螄罿膇葿螃肂聿莅螂螁芅芁莈袄肈膇莇羆芃蒅莇蚆肆莁蒆螈芁芇蒅袀肄膃蒄肂袇薂蒃螂膃蒈蒂袄羅莄蒁羇膁芀蒁蚆羄膆蒀蝿腿蒅蕿袁羂莁薈羃膇芇薇蚃羀芃薆袅芆腿薆羈肈蒇薅蚇芄莃薄螀肇艿薃袂节膅蚂羄肅蒄蚁蚄袈莀蚀袆肃莆蚀羈羆节虿蚈膂膈蚈螀羄蒆蚇袃膀莂螆羅羃芈螅蚅膈膄螄螇羁蒃螄罿膇葿螃肂聿莅螂螁芅芁莈袄肈膇

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1