第6章现代数据挖掘技术与发展.ppt

上传人:京东小超市 文档编号:6056424 上传时间:2020-09-01 格式:PPT 页数:60 大小:1.10MB
返回 下载 相关 举报
第6章现代数据挖掘技术与发展.ppt_第1页
第1页 / 共60页
第6章现代数据挖掘技术与发展.ppt_第2页
第2页 / 共60页
亲,该文档总共60页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第6章现代数据挖掘技术与发展.ppt》由会员分享,可在线阅读,更多相关《第6章现代数据挖掘技术与发展.ppt(60页珍藏版)》请在三一文库上搜索。

1、第第6 6章章现代数据挖掘技术与发展现代数据挖掘技术与发展 本章学习目标: (1) 通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统 的结构 。 (2) 通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、 粗糙集型和决策树型现代挖掘技术。 (3) 通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中的 问题和知识挖掘的价值。 (4) 经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视化数据挖 掘、空间数据挖掘和分布式数据挖掘。 昆 雾 器 军 熟 俞 静 扳 镣 继 黄 兜 救 慌 讥 终 噶 亚 录 宠 映 释 克 斋 速 厩 瞄 浴 佑 颅

2、牲 授 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 现代数据挖掘技术与发展现代数据挖掘技术与发展 6.1知识挖掘系统的体系结构 6.2现代挖掘技术及应用 6.3知识发现工具与应用 6.4数据挖掘技术的发展 练习 牙 拢 举 弓 吭 签 提 氧 帽 蹄 收 菜 另 镊 漾 歹 魔 丧 昨 唯 痉 谤 奉 淮 嗽 侍 狐 蘸 孩 怯 晨 簧 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.16.1知识挖掘系统的体系结构知识挖掘系统的体系结构 6.1.16.1.1知

3、识发现的定义知识发现的定义 知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽 取的信息是隐含的、未知的,并且具有潜在应用价值。 知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提 出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了 不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析, 找到有价值的商业规则。 知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻 找预先未知的商业模式与事实。 6.1.26.1.2知识发现系统的结构知识发现系统的结构 知识发现系统的结构由知识发现系统管理器、知识库、商业分析员 、数据仓库的数据库接口、数据选择

4、、知识发现引擎、知识发现评价和 知识发现描述等部分组成(图6.1)。 玲 妻 彪 灾 累 缴 怒 嘿 啪 够 嫁 烧 的 宵 嫉 挨 肇 南 很 鄂 嫂 鞭 认 铜 巍 伴 尝 甸 并 倪 谤 捍 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 数据仓库 知识库 数据 库接 口 数 据 选 择 知识 发现 引擎 知识发现评 价 知识发现 描述 知识发现 管理器 商业分析员 图6.1知识发现系统结构 染 鸣 辱 紧 犊 傻 赛 哲 赊 妇 付 狰 骆 粮 聪 逾 扬 苯 半 凝 尸 辱 诀 定 丑 甭 贴 酌 局 皿 绩 芜 第 6

5、 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 1.知识发现系统管理器 控制并管理整个知识发现过程 2.知识库和商业分析员 知识库包含了源于各方面的知识。商业分析员要按一种有效的方式指导 关注信息的发现。 3.数据仓库的数据库接口 知识发现系统的数据库接口可以直接与数据仓库通信。 4.数据选择 确定从数据仓库中需要抽取的数据及数据结构 5.知识发现引擎 将知识库中的抽取算法提供给数据选择构件抽取的数据 6.发现评价 有助于商业分析员筛选模式,选出那些关注性的信息 7.发现描述 发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将

6、来 引用,并保持知识发现与管理人员的通信。 龙 块 折 神 捣 嫂 缺 朴 敲 斗 乱 拄 艳 帐 卉 守 晋 角 排 邓 贡 肝 祸 纬 苞 畸 杂 扶 滋 栈 顺 菩 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 频繁模式是频繁的出现在数据集中的模式 如项集、子序或者子结构 动机:发现数据中蕴含的内在规律 那些产品经常被一起购买?-啤酒和尿布? 买了PC之后接着都会买些什么? 哪种DNA对这种新药敏感 我们能够自动的分类WEB文档吗? 应用 购物篮分析、WEB日志(点击流)分析、捆绑 销售、DNA序列分析等 6.26.2现代

7、挖掘技术及应用现代挖掘技术及应用 嘘 幽 块 门 蓉 者 皖 太 践 纬 醒 烂 真 俺 绽 病 草 妮 谗 麦 产 辩 粹 裂 份 额 噪 熬 恳 淋 渭 粱 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 揭示数据集的内在的、重要的特性 作为很多重要数据挖掘任务的基础 关联、相关和因果分析 序列、结构(e.g.子图)模式分析 时空、多媒体、时序和流数据中的模式分析 分类:关联分类 聚类分析:基于频繁模式的聚类 数据仓库:冰山方体计算 涅 醛 姬 逼 敏 瘩 罗 焊 枷 熬 陡 澈 却 河 妙 搓 蔫 贡 沉 斧 情 舰 税 彦

8、 罕 胶 画 垂 牙 茅 行 赃 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 如果问题的全域是商店中所有商品的集合,则对每种商品 都可以用一个布尔量来表示该商品是否被顾客购买,则每 个购物篮都可以用一个布尔向量表示;而通过分析布尔向 量则可以得到商品被频繁关联或被同时购买的模式,这些 模式就可以用关联规则表示(e.g. 0001001100) 关联规则的两个兴趣度度量 支持度 置信度 通常,如果关联规则同时满足最小支持度阈值和最小置信 度阈值,则此关联规则是有趣的 侠 戒 困 尔 货 唐 渊 撬 居 壕 蔑 呐 牲 借 椰 缉

9、 亦 估 鞋 汲 蹦 茁 楞 借 停 毯 关 耳 邀 彩 团 朝 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 给定: 项的集合:I=i1,i2,.,in 任务相关数据D是数据库事务的集合,每个事务 T则是项的集合,使得 每个事务由事务标识符TID标识; A,B为两个项集,事务T包含A当且仅当 则关联规则是如下蕴涵式: 其中 并且 ,规则 在事 务集D中成立,并且具有支持度s和置信度c 擒 欧 迅 筛 抚 猾 熏 著 芍 憋 坤 鸦 幕 尿 斌 螺 火 详 帆 晕 劳 北 户 粹 篆 邪 竟 斡 细 驼 丸 噶 第 6 章 现

10、代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 项的集合 I=A,B,C,D,E,F 每个事务T由事务标识符TID标识,它是项的集合 TID(2000)=A,B,C 任务相关数据D是数据库事务的集合 须 始 忱 伐 璃 拈 贤 饭 腆 师 朱 望 拦 皇 附 戎 档 哎 陡 傍 戳 庙 闲 鹏 绒 揪 定 浸 便 绎 辨 循 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 支持度s是指事务集D 中包含 的百分比 置信度c是指D中包含A的 事务同时也包含B的百分 比 假设最小支持度阈值

11、为 50%,最小置信度阈值为 50%,则有如下关联规则 A C (50%, 66.6%) C A (50%, 100%) 同时满足最小支持度阈值 和最小置信度阈值的规则 称作强规则 Customer buys diaper Customer buys both Customer buys beer 容 玄 讲 窝 试 柳 总 浊 俄 阴 布 唬 彻 左 韭 洼 恒 妻 宫 眷 考 捻 杨 奴 航 盔 咏 痪 眷 鸳 奉 到 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.26.2现代挖掘技术及应用现代挖掘技术及应用 6.2.1

12、6.2.1规则型现代挖掘技术及应用规则型现代挖掘技术及应用 1.关联规则的基本概念 布尔关联规则、单维规则 buys(x,“computer”)=buys(x,“finacial_management_software”) 量化关联规则、多维关联 age(“30.40”)income(“42000.50000”)=buys(x,“high_resolution_TV”) 多层关联规则 单层关联规则 age(x,“30.40”)=buys(x,“IBMcomputer”)(6.3) age(x,“30.40”)=buys(x,“computer”)(6.4) 关联规则(6.2)可以用下面的SQL

13、查询语句完成。 SelectCust.name,P.item_name fromPurchases,P groupbyCust.ID having(Cust.age=30.and.Cust.age=42000and Cust.income 40 否 是 一般良好 6.2.56.2.5决策树型现代挖掘技术决策树型现代挖掘技术 2.决策树的应用 立 劈 斡 嘻 会 爱 剧 院 肺 嘶 婴 吁 咎 蹈 冗 杖 淖 恒 室 葬 论 刚 兄 拭 逻 倪 蓉 呐 递 杉 老 沮 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.2.56.2

14、.5决策树型现代挖掘技术决策树型现代挖掘技术 编号年龄学生信誉等级类别标 号 1=30是良好会购买 240否一般会购买 440否良好不会购买 540否一般会购买 63140是一般会购买 740是一般会购买 940否良好不会购买 11=30否一般不会购买 123140是一般会购买 133140否一般会购买 143140是良好会购买 拓 砷 么 容 啤 压 芽 酬 翔 哮 祷 婿 瞅 脾 在 机 贺 卸 挣 痈 豺 迟 畏 祈 起 妮 躺 绿 武 粟 韶 望 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.2.56.2.5决策树型

15、现代挖掘技术决策树型现代挖掘技术 “年龄”在各个属性中具有最大的信息增益,所以选择“年龄 ”属性作为第一个测试属性,创建一个节点,用“年龄”标记 。 计算剩余各个属性的相应的信息增益,选择信息增益最大 的属性作为测试属性,这时信息增益最大的是“学生”属性 ,创建一个节点,用“学生”标记 。 腆 椎 酿 阳 右 雍 反 碉 艰 娄 摧 癸 绰 碌 负 忍 惮 郁 豪 笺 摆 尾 瞥 赫 起 俭 碘 舀 莎 疮 扣 授 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.36.3知识发现工具与应用知识发现工具与应用 6.3.1 知识挖

16、掘工具的系统结构 1.无耦合(no coupling) DM系统不利用DB或DW系统的任何功能 2.松散耦合(loose coupling) DM系统将使用DB/DW的某些工具 3.半紧密耦合(semitight coupling) DM系统连接到一个DB/DW系统,一些基本数据挖掘原语 可以在DB/DW系统中实现。 4.紧密耦合(tight coupling) DM系统被平滑地集成到DB/DW系统中 匀 锭 焦 屈 络 参 应 圾 初 擅 宙 忌 红 憨 府 侥 债 涵 背 咕 豪 琅 赡 纷 冶 参 准 杀 充 幸 滋 途 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章

17、 现 代 数 据 挖 掘 技 术 与 发 展 6.36.3知识发现工具与应用知识发现工具与应用 6.3.2 知识挖掘工具运用中的问题 1.数据挖掘技术应用中的共性问题 (1)数据质量 (2)数据可视化 (3)极大数据库(vLDB)的问题 (4)性能和成本 (5)商业分折员的技能 (6)处理噪声和不完全数据 (7)模式评估兴趣度问题 类 沛 席 郁 士 篡 进 萧 柔 弗 拆 寇 锚 笨 裤 奸 仟 贮 阉 箱 槐 修 福 询 憎 跃 恒 棺 祸 横 凑 柠 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.36.3知识发现工具与

18、应用知识发现工具与应用 6.3.2 知识挖掘工具运用中的问题 2.数据挖掘技术应用中的个性问题 (1)规则归纳应用中的问题 主要用于显式描述数据抽取的规则 、找到所有的 规则,工作量是巨大的 (2)神经网络应用中的问题 受训练过度的影响、神经网络的训练速度问题 (3)遗传算法应用中的问题 袄 倍 诸 舶 有 熙 辨 镣 刽 捞 晓 敏 遗 琐 藩 儒 蜀 沈 棕 藩 溢 篱 至 圃 藐 恋 顶 盯 询 咀 诞 蛛 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.36.3知识发现工具与应用知识发现工具与应用 6.3.3 知识挖掘

19、的价值 1.了解商业活动 2.发现商业异常 3.预测模型 6.3.4 现代数据挖掘工具简介 1.DBMiner的体系结构 2.DBMiner的数据挖掘类型 樱 副 持 密 私 钎 清 招 旬 燎 逝 欺 塑 帮 冠 皱 羡 峪 的 脉 柬 篷 芦 莲 蛤 妄 陶 迪 沦 盟 泡 卡 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 6.4.1 文本挖掘 1.文本分析和语义网络 文本分析 为一个大型文本集合提供内容概况 例如,可以发现一个客户反馈集合中文档的显著簇,这样可能会发现公司的

20、产 品或服务在哪里需要改进。 指出对象间的隐藏结构 在组织一个企业内部网站时,文本分析可以找出对象间的隐藏结构,这样有关 联的文档就能被超链接连接起来。 提高发现相似或相关信息搜索过程的效率和有效性 例如,可以从一个新闻服务机构搜索文章和发现独有的文档,这些文档含有到 现在为止在别的文章中没有提到过的新趋势或技术的线索。 侦察存档中的重复文档 文本分析可以用于大量文本需要分析的地方。虽然自动处理不能达到人类阅读 分析的深度,但它可以被用来抽取关键点、产生总结、分类文档等。 津 胡 隐 刻 搜 答 毅 吨 个 扰 狱 岸 媚 靡 誉 巨 潦 呢 盐 旱 煤 徊 两 社 流 很 炳 该 谣 峦 鸟

21、 氢 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 语义网络 一个有效文本分析的第一步是创建该文本的一个语义网络 。一个语义网络是一系列来自分析的文本的最重要概念( 词与词的组合)以及文本中这些概念间的语义联系。一个 语义网络为分析的文本提供了一个简明和非常准确的总结 。与人工神经网络一样,语义网络的每个元素概念都 被它的权重和一组与此网络其他元素的联系所标识一 个上下文结点。一旦为调查研究的文本构造的一组准确的 语义网络建立起来,所有文本分析任务就可以执行。 在现有的大部分算法

22、中,一个语义网络是在一些已定义的 规则和概念的基础上建立起来的。不过,也存在一些比较 强大的算法,这些算法不需要任何关于主题的预先背景知 识,可以仅仅在一个调查研究文本的基础上完全自动建立 起一个语义网络。 卸 检 楚 巢 丹 铀 氦 图 灰 乃 瘫 滨 债 确 吵 珠 改 彰 哀 淤 砧 敏 虱 傻 瞪 河 旭 禽 非 寅 狂 带 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 2.文本挖掘 文本总结 从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。 用户不需要浏览全

23、文就可以了解文档或文档集合的总体内容。 基于关键字的关联分析 首先收集经常一起出现的关键字或词汇,然后找出其关联或相互关系 。在这类分析中,每一个文档被视为一个事务,文档中的关键字组可 视为事务中的一组事务项。这样,这种基于关键字的关联分析就变成 事务数据库中事务项的关联挖掘问题。 一组经常连续出现或紧密相关的关键字可形成一个词或词组。关联分 析有助于找出复合关联,即领域相关的词或词组,如中国,长江,三 峡。还有助于找出非复合关联,即领域不相关的词或词组,如人民 币,交易,总额,证券,佣金,参股。基于这些词或词组关联的挖掘 被称为“词级关联挖掘”。利用这种词和词组的识别,词级挖掘可以用 于找出

24、词或关键字之间的关联。 肖 房 套 快 舟 风 极 掖 罪 阐 佐 峡 券 末 棉 宣 裂 膀 挫 韦 骋 髓 蔷 引 扦 周 栽 囚 贵 陶 步 技 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 2.文本挖掘 文档分类分析 在已有的数据基础上学会一个分类函数或构造出一个分类模型。对文 档进行分类。文档的分类分析,一般是先把一组预先分类过的文档作 为训练集,然后对训练集加以分析以便得出分类模式。这种分类模式 一般要经过一定的测试过程,不断细化。最后用分类模式对其他文档 加以分类。

25、 常用的一种对文档分类的有效方法是基于关联的分类。这种分类方法 是基于一组相关联的、经常出现的文本模式对文档加以分类。其处理 过程为:首先,通过简单的信息检索技术或关联分析技术提出关键字 或词汇。然后,使用已有的词类,或基于专家知识,或用关键字分类 系统,生成关键字和词的概念层次。最后,使用词级关联挖掘方法发 现一组关联词。这样,每一类文档相关有一组关联规则表示。这些分 类规则可以基于其出现频率和识别能力,加以排序,并用于对新的文 档进行分类。 勃 贵 趁 坏 甚 涅 睡 轨 钠 崔 丈 致 霞 焚 幅 俯 手 姓 隅 撮 郸 吁 睫 证 鼎 咙 嗡 败 刁 畴 丰 扳 第 6 章 现 代 数

26、 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 文档聚类分析 文档聚类是把文档集分成不同组的自动过程。没有预先定 义好主题类别,它的目标是将文档集合分成若干个组,要 求同一组内文档内容的相似度尽可能大,而不同组间的相 似度尽可能小。当文档的内容作为聚类的基础时,不同组 是对应于集合中讨论的不同主题或论题。因此,聚类是找 出集合所含内容的一条途径。为帮助识别出一组主题,聚 类工具可以识别出在此组文档中频繁出现的术语或词的列 表。聚类也能根据文档的属性集实施,例如它们的长度、 日期等进行聚类。 松 猾 结

27、澡 豢 尿 脓 爱 疆 镰 姆 匠 撇 愧 士 撬 背 个 抉 宋 多 巳 窄 厂 寅 楼 呼 肥 畅 暖 乎 代 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 文本挖掘的应用 利用文本挖掘构造的电子邮件路由,可以对电子邮件进行文本挖掘以 后,确定由哪一个部门、哪一个人来处理这些电子邮件,并可以根据 电子邮件的内容进行相关统计。 文本挖掘可以帮助组织对成千上万的文档实现有效的管理,可以使组 织很快地了解到所需要查找的文档所在位置,以及其包含的主要内容 。 可以利用文本挖掘建立一个

28、客户自动问答系统,对客户所邮寄的信件 、电子邮件进行文本挖掘以后,根据其反映的主要问题,能够确定客 户的需求置信度后,就可以自动给客户发送合适的回信。 企业并且还可以利用联机文本挖掘系统对因特网上所出现的特定词、 概念、主题进行挖掘统计,对市场进行客观的统计分析。 企业甚至可以利用一些具有文本挖掘功能的自动智能网络爬虫来收集 与企业有关的市场、竞争对手和市场环境的信息,给出总结性的分析 报告。 挺 蚜 耀 贤 龙 钻 砌 荷 陈 躲 矣 矾 族 泻 荚 腹 奇 唆 兼 告 二 墙 阅 硬 勋 馋 推 炒 亦 鲸 夹 鄂 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代

29、 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 6.4.2 Web挖掘技术 1. Web的特点 Web的庞大性、Web的动态性、Web的异构性、非结构化 的数据结构、用户群体多种多样 2. Web内容挖掘 基于文本信息的挖掘 和通常的平面文本挖掘比较类似。Web文档多为HTML、XML等语言 ,因此可以利用Web文档中的标记,如、等额 外信息,利用这些信息来提高Web文本挖掘的性能。 在对Web文档进行分类分析中,可以基于一组预先分类好的文档,从 预定义好分类目录中为每一文档赋予一个类标签。例如,Yahoo! 的文档和其相关文档可以作为训练集,用于导出W

30、eb文档的分类 模式,这一模式可以用于对新的Web文档加以分类。由于超链接 包含了有关页面内容的高质量信息,因此,可以利用这些信息对 Web文档进行分类。这种分类比基于关键字的分类方法要更准确 、更完美。 短 廊 分 弯 势 淤 祟 喜 湾 雏 湾 仁 汞 挽 伴 塑 速 饼 哟 岂 酚 州 迟 摔 杭 碗 污 杖 腰 罚 养 挑 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 基于多媒体信息的挖掘 基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像挖掘。 3.Web结构

31、挖掘 从WWW的组织结构和链接关系中推导知识 有助于用户找到相关主题的权威站点,并且可以指向众多权威站点的 相关主题站点。 从一个页面指向另一个页面的超链接。超链接包含了大量人类潜在的 语义,它有助于自动分析出权威性语义。当一个Web页面的作者 建立起指向另一页面的指针时,这就可以看作是作者对另一页面 的注解,也就是对另一页面的认可。把一个页面的来自与不同作 者的注解收集起来,就可以用来反映页面的重要性。 Hub页面是指一个或多个Web页面,它提供了指向权威页面的链接集 合。对于一个Hub页面来说,它本身可能并不突出,但是,它却 提供了指向某个话题的权威页面的链接。好的Hub是指向许多好 的权

32、威页面;好的权威页面是指有好的Hub页面指向的页面。用 Hub页面和权威页面之间的这种相互作用来用于权威页面的挖掘 和高质量Web结构和资源的自动发现。 醉 胺 涧 庙 墅 鸽 懦 记 法 愤 真 若 画 芝 源 段 丸 浸 袱 陕 古 豹 挖 浴 舞 聘 冀 卜 涵 殖 词 运 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 4. Web使用记录的挖掘 通过挖掘Web日志文件和相关数据,发现用户访问Web页面的 模式。 Internet的用户一旦连接到一个在线的服务器上,就在服务

33、器上 的日志文件留下了所请求的URL,发出请求的IP地址和时间戳 。这些日志纪录提供了Web数据挖掘源,可提取有关用户的知 识:用户的访问行为、频度、内容,得到关于用户的行为和方 式模式。改进站点的结构,或为用户提供个性化服务。这方面 的研究主要有两个方向:一般的访问模式追踪和个性化的使用 纪录追踪。一般的访问模式追踪通过分析使用纪录来了解用户 的访问模式和倾向,从而改进站点的组织结构。而个性化的使 用纪录追踪则倾向于分析单个用户的偏好,其目的是根据不同 用户的访问模式,为每个用户提供个性化的页面,开展有针对 性的服务以满足用户的需求。 湾 喉 孤 德 等 篷 挣 观 于 脸 媒 谋 赏 臂

34、凯 拎 砚 票 川 滞 走 慰 叶 蝴 铃 封 产 郎 抚 惰 夹 帧 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 数据预处理阶段 包括数据清洗和事务识别两个部分 模式识别阶段 采用统计法、机器学习等技术,从Web使用记录中挖掘知识 模式分析阶段 模式分析,辅助分析人员理解 5.Web数据挖掘的应用 电子商务、网站设计和搜索引擎服务等多方面。 电子商务的应用主要有客户分类和客户聚类、寻找潜在的客户、客户 的驻留。网站设计的应用是有效地组织网站信息,把握用户的兴趣, 有助于开展网

35、站信息推送服务以及个人信息的定制服务。 搜索引擎服务:实现对网页的聚类、分类,实现网络信息的分类浏览 与检索;通过用户所使用的提问式(query)历史记录分析,提高用户的 检索效果(查全率、查准率) 。 绣 查 揖 矾 溜 琳 诵 多 果 划 肾 飞 霜 桐 成 闺 秘 虎 骗 凳 破 刑 友 喷 坠 织 佃 婿 跑 茶 偏 并 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 6.4.3 可视化数据挖掘技术 1.数据的可视化 2.可视化数据挖掘技术 数据可视化 数据挖掘结果可视化

36、数据挖掘过程可视化 交互式可视化数据挖掘 撕 渊 响 挥 抖 蔚 锡 捷 勉 配 滨 咬 授 调 庇 昂 些 诊 粟 固 撞 梢 益 黍 梢 骗 魁 央 筐 腊 拭 能 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 图12.4数据的可视化 亿 桐 冤 珍 吵 穗 勃 象 禹 拿 循 饿 讫 脐 苯 逸 霄 欺 豆 早 叭 侩 亥 舔 墓 亏 其 奇 嘛 涅 寞 穗 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 图12.5数据挖掘结果可视化 溅 桩 暖 疼 雨 厩

37、兔 梢 恒 魂 赠 敞 筋 独 妄 柜 唾 链 弊 搅 脐 标 警 蔼 服 隧 阴 忧 嘱 袖 懊 遇 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 图12.6数据挖掘结果的3D图形 畔 虱 陨 锣 绝 宫 越 捅 笑 电 蝗 醉 胎 弓 乌 奖 原 柜 抿 疯 摹 柳 书 泥 奋 赠 腑 痊 撵 荔 防 蚤 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 6.4.4 空间数据挖掘 1.地理信息系统 地理信息系统概念

38、 地理信息系统的特点 2.数据挖掘技术和地理信息系统相结合 3.地理信息系统的数据挖掘特点 图形化数据挖掘 图形化统计查询 图形化报表输出 专业的地理分析功能 4.空间数据挖掘 5.空间数据挖掘用途 赶 窟 毙 烛 搂 恬 毫 各 只 恍 尊 语 寒 琉 法 熊 塔 悸 浸 熏 漆 士 糊 磨 刃 改 猖 删 日 吏 铂 四 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 钎 搁 豺 塌 遗 辜 抓 幅 耪 窄 唐 珠 默 结 辆 撇 尺 节 沛 瓤 助 仇 跃 堤 任 杰 块 渤 乘 郭 宁 恼 第 6 章 现 代 数 据 挖

39、掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 6.4.5 分布式数据挖掘 1.分布式数据挖掘 2.适合水平式数据划分的分布式挖掘方法 SQL查询查询结果 结果用户查询 图6.7PADMA体系结构 数据挖掘代理元数据数据挖掘代理 协调器 应用 WW用户接口 磁盘磁盘 憨 痘 彬 汽 卤 战 刚 乒 膳 羔 胰 柒 浸 完 迄 鄙 凹 脖 逊 扮 展 蒸 猜 揣 桩 横 轧 娘 耐 栅 惦 垦 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 6.46.4数据挖掘技术的发展数据挖掘技术的发展 6.4.5 分布式数据挖掘 3.适合垂直式数据划分的分布式数据挖掘方法 图6.8 CDM的体系结构 数据站点A数据站点B数据站点C 分布式数据挖掘代理分布式数据挖掘代理分布式数据挖掘代理 A局部模型B局部模型C局部模型 协调器 全局数据模型 敌 击 门 僚 客 乌 绵 绳 舆 先 事 泞 系 事 键 犬 仪 卧 脖 瀑 腆 忌 滚 金 样 滴 做 验 只 岛 通 称 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展 第 6 章 现 代 数 据 挖 掘 技 术 与 发 展

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1