基于XML的Web数据挖掘研究.pdf

上传人:tbuqq 文档编号:5497288 上传时间:2020-05-24 格式:PDF 页数:2 大小:83.97KB
返回 下载 相关 举报
基于XML的Web数据挖掘研究.pdf_第1页
第1页 / 共2页
基于XML的Web数据挖掘研究.pdf_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于XML的Web数据挖掘研究.pdf》由会员分享,可在线阅读,更多相关《基于XML的Web数据挖掘研究.pdf(2页珍藏版)》请在三一文库上搜索。

1、作者简介: 何志英(1978-), 女, 河北承德人, 中北大学电子与计算机科学技术学院助教, 研究方向为数据挖掘, 图形图像处理;王明泉(1970-), 男 , 山 西朔州人, 中北大学信息与通信工程学院教授, 研究方向为图形图像处理。 基于 XML 的 Web 数据挖掘研究 何志英 , 王明泉 ( 中北大学 , 山西 太原030051) 摘要: 提出了一种基于XML的Web数据挖掘模型, 该模型能很好地体现XML的优越性, 并有效地实现Web数据 挖掘 。 关键词 : 数据挖掘 ;Web数据挖掘 ;XML 中图分类号:TP311.138文献标识码:A文章编号 :1672-7800(2009

2、)050 1780 2 1XML与Web数据挖掘技术 1.1XML简介 XML是 扩 展 标 注 语 言 (Extensible Markup Language) 的 缩 写, 是万维网协会(W3C) 于1998年2月发布的标准。W3C组 织制定XML标准的初衷是:定义一种互联网上交换数据的标 准, 其目的不仅在于满足不断增长的网络应用需求, 同时还希 望借此确保通过网络进行交互时, 具有良好的可靠性和互操作 性。 1.2基于XML的Web数据挖掘实现 1.2.1Web数据挖掘的模型 面向Web的数据挖掘技术首先要解决的就是半结构化数 据模型的确立以及半结构化数据模型的抽取问题。 XML具 有

3、 很 强 大 的 数 据 描 述 和 数 据 抽 取 的 功 能 , 利 用 XML技术可以实现Web页的半结构的数据进行描述形成一个 半结构的数据模型,通过这个模型可以很好的实现数据挖掘。 借助它来完成基于Web数据挖掘的最重要一步:数据抽取与 转换 。 其主要的思想是: 把现有的Web页面转换成XML, 或转换 成XHTML可能更适当, 并使用众多工具中的一小部分来处理 XML结构的数据, 以检索出适当的数据。本文将介绍一种使用 标准的Web技术 (HTML、XML和Java等) 开发的方法, 来实现 基于XML的Web数据挖掘 。其实现过程流程图如图1所示 : 图 2 源 Web 页屏幕

4、快照 可靠和稳定的信息源的确定是动态环境下进行数据挖掘 的 基 本 前 提 。 一 旦 确 定 了 信 息 源 , 下 一 步 就 可 以 调 用 XMLTransformer类中的tidyHTML()方法将源Web页转换为标 准的XML文档 , 该方法接受源Web页的URL地址作为参数, 返回一个XML文档作为结果; public static void main(Stringargs) try DocumentresultDoc =XMLTrans.tidyHTML(“http:/. XMLTrans.outputXMLToFile(resultDoc,“D: jprXMLTransxm

5、lexchange.xml“); catch(XMLHelperException xmle) 软 件 导 刊 Software Guide 第8卷%第5期 2009年5月 Vol.8 No.5 May. 2009 第5期 Web页面或 者 源XHTML视图中的很多信息都跟需要无 关, 因而要求在XML树中找出一个特定区域, 从中抽取需要的 数据 。假如我们所关心的数据在一个表中, 则可采用一定的方 法,如Xpath或利用XSL将XML树转换为字符串等方法找到 引用点 , 创建实现抽取数据的代码。 对于更复杂的抽取, 可能需 要在单个页面上找出这些区域的若干实例, 完成这一任务的最 简单的办法

6、通常是检查Web页面 , 然后使用XML。 我们查找的 数据一般都包含在同一个元素下 , 在这个表中一般也会 包含所需信息的关键词, 记下观察到的内容, 分析页面所生成 的XHTML, 并把该表作为引用点或锚。 找到了这个锚, 就可以创建实际抽取数据的代码, 这个代码 将以XSL文件的形式出现。XSL是从XML派生出来的 , 是一种 可以过滤 , 选择并格式化XML数据的语言 。 他的基本思想是: 通 过定义转换模板, 将XML源文档转换为带样式信息的可浏览文 档。XSL文件的作用是标识锚, 指定如何从锚中获取正在查找的 数据 , 并且用我们所需的格式构造一个XML输出文件 。 该例的XSL代

7、码如下 : 接下来调用XMLTransformer类中相应的方法对上述XSL 文档进行语法分析并执行转换, 调用主要方法的代码如下: Documentxhtml= XMLTransformer.parseXMLFormURLString (“D:XMLTransxmlexchange.xml“); Documentxsl= XMLTransformer.parseXMLFormURLString(“ D:XMLTransxmlexchange.xsl“); Documentxml= XMLTransformer.transformXML(xhtml,xsl); XMLTransformer.o

8、utputXMLToFile(xml,“D: XMLTransxmlresult.xml“); 将要 抽取的 数 据映射到XML文件 和XSL文 件后 就 完 成 一次数据的抽取。Web数据挖掘是一个周而往复的过程, 通常 需要不断地在Internet上进行数据的抽取, 反复执行抽取过程, 最后把结果合并到单个XML数据文件中。可以再次使用XSL 执行 , 也可以创建类的方法把在当前抽取中获得的数据合并到 包含以前抽取数据的文档中。 本文中的示例所用到的代码除了XSL变换代码以外几乎 可以在任何数据抽取中重复使用, 本文所介绍的方法具有很强 的实用价值。 通过选择所需的可靠数据源以及在这些数据

9、源中 选取与内容相关但与格式无关的锚, 可以实现一个维护成本低 廉、 可靠的数据抽取系统。有时 , 数据模式的抽取有遗漏, 开发 者可进一步检查HTML文件的模式和数据内容, 手工地将其与 XML文档的模式信息对照。 上 述 模 型 实 现 了 对HTML格 式 的Web文 档 进 行 数 据 抽 取, 但是Web上的数据不仅仅限于HTML文档 , 还有很多诸如 后台的数据库数据、 日志数据等等形式, 如何扩大数据抽取的 范围是一个重要的要继续研究的问题。另一方面 , 利用该模型 进行数据抽取时,所依赖的方法还是基于XQL和Xpath的全 文匹配检索, 如果所需数据所在的网页和站点在结构和内容

10、上 变化不大, 只需要进行简单的路径搜索和调整即可; 但是如果 这些数据所在的网站网页变化更新很快, 那么上述模型的执行 效率就会变得很低。 2结束语 Web数据挖掘是一种新颖的研究领域, 它与传统的数据挖 掘不同 , 由于Web数据是一种非结构化的数据, 这给它的数据 挖掘带来了困难。XML很好的解决了这个问题, 由于它也是一 种非结构的数据模型,它的出现使基于Web的数据挖掘有了 很大的简化。 本文在这两者的基础上, 提出了一种基于XML的 Web数据挖掘模型, 该模型能很好地体现XML的优越性 , 并有 效地实现Web数据的挖掘。 参考文献: 1卫金茂, 王石 , 伊卫国.基于XML的

11、数据 挖掘 J.计 算机 工 程与 设计 ,2003(10). 2Jared Jackson,Jussi Myllymaki.Web-based data mining-automatic - ally extract information with HTML,XML,and JavaDB/OL.http: / works/cn/xml/x-wbdm/index-eng.sh - tml1998. 3Gerald Huck,Peter Fanhauser,Karl Aberer,et al.Extracting and Sy- nthesizing Information from the WebR.New York:In COOPIS, 1988. 4范亚芹 , 刘颖.Web数据挖掘原理及实现J.吉林大学学报,2003 (4). 5卫金茂, 王石 , 伊卫国.基于XML的 数据 挖掘 J.计 算机 工 程与 设计 ,2003(10). 6HAN JIAWEI,MICHELINEKAMBER.数据挖掘概念与技 术 M. 北京 : 机械工业出版社,2004. ( 责任编辑: 王钊) 何志英 , 王明泉 : 基于XML的Web数据挖掘研究179

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1