基于XML的Web数据挖掘研究.pdf

资源描述

《基于XML的Web数据挖掘研究.pdf》由会员分享，可在线阅读，更多相关《基于XML的Web数据挖掘研究.pdf（2页珍藏版）》请在三一文库上搜索。

1、作者简介：何志英(1978-)，女，河北承德人，中北大学电子与计算机科学技术学院助教，研究方向为数据挖掘，图形图像处理;王明泉(1970-)，男，山西朔州人，中北大学信息与通信工程学院教授，研究方向为图形图像处理。基于 XML 的 Web 数据挖掘研究何志英，王明泉（中北大学，山西太原030051）摘要：提出了一种基于XML的Web数据挖掘模型，该模型能很好地体现XML的优越性，并有效地实现Web数据挖掘。关键词：数据挖掘；Web数据挖掘；XML 中图分类号：TP311.138文献标识码：A文章编号：1672-7800（2009

2、）050 1780 2 1XML与Web数据挖掘技术 1.1XML简介 XML是扩展标注语言（Extensible Markup Language）的缩写，是万维网协会（W3C）于1998年2月发布的标准。W3C组织制定XML标准的初衷是：定义一种互联网上交换数据的标准，其目的不仅在于满足不断增长的网络应用需求，同时还希望借此确保通过网络进行交互时，具有良好的可靠性和互操作性。 1.2基于XML的Web数据挖掘实现 1.2.1Web数据挖掘的模型面向Web的数据挖掘技术首先要解决的就是半结构化数据模型的确立以及半结构化数据模型的抽取问题。 XML具有

3、很强大的数据描述和数据抽取的功能，利用 XML技术可以实现Web页的半结构的数据进行描述形成一个半结构的数据模型，通过这个模型可以很好的实现数据挖掘。借助它来完成基于Web数据挖掘的最重要一步：数据抽取与转换。其主要的思想是：把现有的Web页面转换成XML，或转换成XHTML可能更适当，并使用众多工具中的一小部分来处理 XML结构的数据，以检索出适当的数据。本文将介绍一种使用标准的Web技术（HTML、XML和Java等）开发的方法，来实现基于XML的Web数据挖掘。其实现过程流程图如图1所示：图 2 源 Web 页屏幕

4、快照可靠和稳定的信息源的确定是动态环境下进行数据挖掘的基本前提。一旦确定了信息源，下一步就可以调用 XMLTransformer类中的tidyHTML（）方法将源Web页转换为标准的XML文档，该方法接受源Web页的URL地址作为参数，返回一个XML文档作为结果； public static void main（Stringargs） try DocumentresultDoc =XMLTrans.tidyHTML（“http：/. XMLTrans.outputXMLToFile（resultDoc，“D： jprXMLTransxm

5、lexchange.xml“）； catch（XMLHelperException xmle）软件导刊 Software Guide 第8卷%第5期 2009年5月 Vol.8 No.5 May. 2009 第5期 Web页面或者源XHTML视图中的很多信息都跟需要无关，因而要求在XML树中找出一个特定区域，从中抽取需要的数据。假如我们所关心的数据在一个表中，则可采用一定的方法，如Xpath或利用XSL将XML树转换为字符串等方法找到引用点，创建实现抽取数据的代码。对于更复杂的抽取，可能需要在单个页面上找出这些区域的若干实例，完成这一任务的最简单的办法

6、通常是检查Web页面，然后使用XML。我们查找的数据一般都包含在同一个元素下，在这个表中一般也会包含所需信息的关键词，记下观察到的内容，分析页面所生成的XHTML，并把该表作为引用点或锚。找到了这个锚，就可以创建实际抽取数据的代码，这个代码将以XSL文件的形式出现。XSL是从XML派生出来的，是一种可以过滤，选择并格式化XML数据的语言。他的基本思想是：通过定义转换模板，将XML源文档转换为带样式信息的可浏览文档。XSL文件的作用是标识锚，指定如何从锚中获取正在查找的数据，并且用我们所需的格式构造一个XML输出文件。该例的XSL代

7、码如下：接下来调用XMLTransformer类中相应的方法对上述XSL 文档进行语法分析并执行转换，调用主要方法的代码如下： Documentxhtml= XMLTransformer.parseXMLFormURLString （“D：XMLTransxmlexchange.xml“）； Documentxsl= XMLTransformer.parseXMLFormURLString（“ D：XMLTransxmlexchange.xsl“）； Documentxml= XMLTransformer.transformXML（xhtml，xsl）； XMLTransformer.o

8、utputXMLToFile（xml，“D： XMLTransxmlresult.xml“）；将要抽取的数据映射到XML文件和XSL文件后就完成一次数据的抽取。Web数据挖掘是一个周而往复的过程，通常需要不断地在Internet上进行数据的抽取，反复执行抽取过程，最后把结果合并到单个XML数据文件中。可以再次使用XSL 执行，也可以创建类的方法把在当前抽取中获得的数据合并到包含以前抽取数据的文档中。本文中的示例所用到的代码除了XSL变换代码以外几乎可以在任何数据抽取中重复使用，本文所介绍的方法具有很强的实用价值。通过选择所需的可靠数据源以及在这些数据

9、源中选取与内容相关但与格式无关的锚，可以实现一个维护成本低廉、可靠的数据抽取系统。有时，数据模式的抽取有遗漏，开发者可进一步检查HTML文件的模式和数据内容，手工地将其与 XML文档的模式信息对照。上述模型实现了对HTML格式的Web文档进行数据抽取，但是Web上的数据不仅仅限于HTML文档，还有很多诸如后台的数据库数据、日志数据等等形式，如何扩大数据抽取的范围是一个重要的要继续研究的问题。另一方面，利用该模型进行数据抽取时，所依赖的方法还是基于XQL和Xpath的全文匹配检索，如果所需数据所在的网页和站点在结构和内容

10、上变化不大，只需要进行简单的路径搜索和调整即可；但是如果这些数据所在的网站网页变化更新很快，那么上述模型的执行效率就会变得很低。 2结束语 Web数据挖掘是一种新颖的研究领域，它与传统的数据挖掘不同，由于Web数据是一种非结构化的数据，这给它的数据挖掘带来了困难。XML很好的解决了这个问题，由于它也是一种非结构的数据模型，它的出现使基于Web的数据挖掘有了很大的简化。本文在这两者的基础上，提出了一种基于XML的 Web数据挖掘模型，该模型能很好地体现XML的优越性，并有效地实现Web数据的挖掘。参考文献： 1卫金茂，王石，伊卫国.基于XML的

11、数据挖掘 J.计算机工程与设计，2003（10）. 2Jared Jackson，Jussi Myllymaki.Web-based data mining-automatic - ally extract information with HTML，XML，and JavaDB/OL.http： / works/cn/xml/x-wbdm/index-eng.sh - tml1998. 3Gerald Huck，Peter Fanhauser，Karl Aberer，et al.Extracting and Sy- nthesizing Information from the WebR.New York：In COOPIS， 1988. 4范亚芹，刘颖.Web数据挖掘原理及实现J.吉林大学学报，2003 （4）. 5卫金茂，王石，伊卫国.基于XML的数据挖掘 J.计算机工程与设计，2003（10）. 6HAN JIAWEI，MICHELINEKAMBER.数据挖掘概念与技术 M. 北京：机械工业出版社，2004. （责任编辑：王钊）何志英，王明泉：基于XML的Web数据挖掘研究179

展开阅读全文