基于HTML树和模板的文献信息提取方法研究.doc

上传人:scccc 文档编号:13120853 上传时间:2021-12-15 格式:DOC 页数:10 大小:31KB
返回 下载 相关 举报
基于HTML树和模板的文献信息提取方法研究.doc_第1页
第1页 / 共10页
基于HTML树和模板的文献信息提取方法研究.doc_第2页
第2页 / 共10页
基于HTML树和模板的文献信息提取方法研究.doc_第3页
第3页 / 共10页
基于HTML树和模板的文献信息提取方法研究.doc_第4页
第4页 / 共10页
基于HTML树和模板的文献信息提取方法研究.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《基于HTML树和模板的文献信息提取方法研究.doc》由会员分享,可在线阅读,更多相关《基于HTML树和模板的文献信息提取方法研究.doc(10页珍藏版)》请在三一文库上搜索。

1、基于HTML树和模板的文献信息提取方法研究第27卷第12期2021年12月计算机应用研究ApplicationResearchofComputersVoL27N12基于HTML树和模板的文献信息提取方法研究冰李文立,王乐超,宋春雷(大连理工大学管理学院系统工程研究所,辽宁大连116024)摘要:教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广阔的应用前景.提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进

2、行信息提取.实验结果说明该方法在提取网络数据库中文献信息的准确率在94%以上.关键词:网页信息提取;文档对象模型树;模板;文献信息搜集中图分类号:TP311.13文献标志码:A文章编号:10013695(2021)12461503MethodofpaperinformationextractionbasedonHTMLtreeandtemplateLIWen-li,WANGLe-chao,SONGChunlei(fofSystemsEngineering,SchoolofManagement,DalianUniversityofTechnology,DalianLiaoning116024,C

3、hina)Abstract:TheautomaticcollectionoftheteacherresearchpaperinformationiSanimportantmeansofeffectivemanagementofscientificresearch,thereisabroadapplicationprospectstoapplythemethodofWebpageinformationextractiontothepaperinformationcollection.Thispaperproposedamethodofpaperinformationcollectionbased

4、ontheHTMLtreeandtemplate.iSabove94%incollectingthepaperinformationfromtheWebdatabase.Keywords:Webinformationextraction;DOMtree;template:documentinformationextraction0引言随着Internet的迅速开展,Web已经成为一个数据量巨大Web的数据挖掘是人们获取信息的有效途径,如何有效地利用Web上的信息就变得非常重要.因此,从Web上检索和发经常含有与主题无关的信息,如广告信息,导航条和无关链接等,它们通常分布于网页四周,有的甚至嵌入

5、到网页正文中,这息首先面临的问题就是Web数据源的有效识别并通过适当的文献检索数据库,其检索结果的呈现方式大多是HTML页面,信息的获取通常需要人工干预,也不能满足用户的个性化查询性化查询需求成为文献管理中的一项重要工作,将HTML页面信息的抽取机制应用于文献信息的获取与需求匹配有广阔的应用前景.国内外对Web信息提取已经进行了大量的研究工作,微软研究院提出了一种根据网页视觉特征的网页信息提取方法,将页面根据文字大小,颜色等信息划分为视觉块,进而提取网页的主题信息.但是由于视觉特征的复杂性,很难找献4提出了利用HTML标记来对网页中的内容进行分块,然后进行信息提取的方法,但这种方法的主要目的是

6、排除网页内容中影响搜索引擎检索精度的干扰信息,并不是为了提取网页中的正文信息.文献5的方法将HTML转换为STU.DOM树,并通过引入局部相关度和上下文相关度对STUDOM树进行节点过滤与剪枝,最后生成只包含主题内容的HTML文件.该方法仅考虑了非链接字数和块内链接语义,有一定的局限性.文献6中采用用户输入页面描述文件对层次结构抽取,该描述文件需要用户描述抽取过程的具体变量和编写抽取方法,这种方法只能适用于某些特殊的页面,通用性较差.文献79提出的基于包装器的方法能根据不同类型的页面生成相应的包装器,从而提取结构相似页面的正文信息,但是这种方法在生成包装器时工作量较大,无法适应于页面结构的动态

7、变化.文献1O提出了一种基于树相似度的模板生成方法,并将生成模板用于页面结构信息的提取,其模板生成过程比拟复杂,在提取结构简单页面的信息时往往代价较大,在提取页面特定信息时也很难到达理想效果.本文在总结HTML页面信息提取方法的根底上,将HTML根据实验样本生成页面的HTML树结构,然后根据目标信息06;修回日期:2021-0723基金工程:国家自然科学基金资助工程(70572099);辽宁省自然科学基金资助工程(1050349)作者简介:李文立(1969-),男,副院长,教授,博导,主要研究方向为决策支持,信息系统建模,电子商务(wllidlut.edu );王乐超(1985-),硕士研究生

8、,主要研究方向为文献信息提取.?4616?计算机应用研究第27卷得到提取页面信息的模板,最后将此模板用于提取结构相似页据库的检索结果页面通常具有结构上的一致性,本文所提方法可以适用于大量特定文献信息的提取,最后通过实验证明了所提方法的有效性.1信息提取方法基于HTML树和模板的页面信息抽取主要包括HTML树法流程如图1所示.图1基于HTML树和模板的页面信息抽取HTML文件的内容与结构混合在一起,没有明显的区分,是自描述的半结构化数据;但是它们具有一定的结构性,主要序直接识别,为了从HTML文件中提取信息,必须先将其结构化.树型结构可以准确地描述元素的相对位置关系,很适合描定义,DOM树节点属

9、性给出了页面的根本内容和结构信息.由于网页结构的复杂性,在将网页表示成DOM树结构之前首先需要对网页进行预处理.主要的预处理工作有:a)给所有的标签匹配相应的结束标签,如将(br>修正为(br/>,将(h1)heading(h2)subheading(/b3)修正为(h1)heading(/h1)(hE>subheading(/h2).b)给所有属性值加弓l号,如将(ahref= :/wvw.w3cn.org)转换为(ahref=" :/ w3cn.org")等.e)检查所有标记的嵌套顺序,并进行修正,如(a)(b)(/a)&

10、;lt;/b>是不正确的嵌套,正确的嵌套形式应该是(a)(b)(/b)(/a).d)"("和")"只能用来包含网页标记(tag),当在其他地方出现这两个符号时应该用&It和&gt代替.e)将网页文字修饰标记,如(strong)(span)(font)等标记去除,以便正确处理文字信息在HTML树中的层级关系.页结构树构造之前,首先将(script)和(style)等用于控制网页显示格式的标签,它们对网页正文内容影响不大,除去这些信结构如图2所示.在HTML树中,用位置坐标来标志标签在HTML树中的位置,如图3所

11、示,用"0.0.0"来标志(title>标签的位置,这样就可以准确地定位HTML树中某个标签的位置和其嵌套关系,如根据位置坐标"0.0"和"0.0.0"就可以准确地判断出(title)节点是(head>节点的子节点.基于DOM树和模板的目标信息提取面临的首要问题就是模板的自动生成,本文将HTML页面信息的提取模板定义为Ttitle,addr,path.其中title指的是抽取信息的类型,如"题目""摘要"等;addr指目标信息在HTML结构树中所处位置坐标;path指

12、从树的根节点到目标节点的路径,在图2中,文本内容三的路径为html/body/table/tr/td.(b)lOOM树结构文件及相应的DOM树结构构造页面信息提取模板最重要的工作是根据样本HTML页面和所要提取的目标信息,自动识别所要提取信息在页面的坐标的识别分为以下三种情况:a)如果根据所有的实验样本和目标信息得到的位置坐标如,如果所有实验样本得到的目标信息的位置坐标都为"0.1.2.1.2",那么模板可以利用这个位置坐标来提取其他结构相似页面的目标信息.b)如果根据各个实验样本和目标信息所得到的位置坐标不完全相同,那么程序根据各个位置坐标之间的关系和HTML树的结构层次

13、,确定位置坐标共同特征,从而得到目标信息位置坐标的通用匹配模式,模板根据通用模式进行目标信息的提取.例如,如果实验样本得到的目标信息的坐标分别为0.1.2.1.0,0.1.2.1.1和0.1.2.1.3,并且HTML树中0.1.2.I的子节点只包括上述三个节点,那么可以断定目标信息的位置坐标为0.1.2.1.,页面模板便可以利用这个匹配模式进行相似页面的信息抽取.C)如果目标信息包含在多个节点中,那么向上级查找,得到它们父节点的位置坐标作为提取目标信息的位置坐标.根据网页在结构上的相似性度量两个HTML页面的相似基于HTML树的页面结构相似性度量方法,对两个页面的机第12期李文立,等:基于HT

14、ML树和模板的文献信息提取方法研究?4617?构上的相似性非常强,本文在计算两个网页结构相似性时有如下定义:a)权值.网页DOM树中各层对相似度的奉献,=/J-/Ji.其中:D为度量层数,是一个常量,常取D=10;为进行比拟的当前层数.影响程度不同,通常(table)(div)(tr)(td)等标签对相似度影影响权重因子:1.如果树中存在非HTML标签,其影响权重因子O/=0.C)改变百分比P.网页HTML树中各层变化情况的度量,表达为网页在结构上的变化情况.EXD×()i2,DJE1,1,C上式可解释为:每一层改变百分比=本层改变个数/本层总个数/总层数×本层权值.d)标

15、准树.在计算改变百分比P时,选取一棵DOM作为标准,称之为标准树,与之比拟的DOM树成为样本树.e)两棵HTML树的相似度S.S=1一P.确定阈值0,当S>0时,可以断定两棵HTML树在结构上相似,即两个weh页面在结构上具有相似性.对于相似度阈值0的设定,随机选取中国知网,万方数据类网页设置一个标准页面,比拟其他页面与标准页面的平均相似度,统计结果如表1所示.表1网络数据库文献信息页面相似度由表1可知,同一网络数据库的文献信息页面的相似度平均在n9以上,而不同数据库的文献检索页面的相似度相对较低,大多低于n8.可以较大的准确性确定相似度阈值0=0.85,这样,根据页面之间的相似

16、度就可以将页面进行自动分类,针对不同结构的页面选取各自的信息提取模板.根据页面之间的相似度,将相似页面归为一类,针对每类页面进行样本训练,得到目标信息提取的模板,然后将模板用行分类,此方法在应用于页面信息提取时具有较高的自动性和准确性.2文献信息的提取将所提方法应用于文献描述信息的提取上,具体提取文息针对不同的页面生成信息提取模板,然后按照相似度将样本页面进行自动分类,最后将信息提取模板应用于各类页面中进行信息提取.分别从文献网络数据库中国知网,万方数据库,维普数据库中选取100个文献查询结果页面,将本文方法分别应用于文献的标题,摘要,作者,来源刊物信息的提取.信息提取结果与人工提取结果进行比

17、照,结果如表2所示.表2文献信息提取精确度由表2可知,将基于DOM树和模板的页面信息提取方法应用于网络数据库中文献信息的采集时,可以较高的准确率提取网络数据库中文献信息的标题,作者,来源刊物等信息,其准原因是文献的摘要信息通常是成段文字,其结构在不同的页面中会产生不同,内容通常会包含在不同的结构层次中,生成提取模板时难以确定具体层次,所以在应用本文提取方法进行提取时会产生误差.3结束语基于模板的网页信息提取方法可以用于提取结构相似页面的信息,但是模板的生成需要人工干预,自动化程度不高.本文将DOM树结构用于模板的自动生成过程,提出了一种比于同网络数据库文献信息页面的机构相似度非常高,本文通过实

18、验证明了将基于DOM树结构和模板的网页信息提取方法用于文献信息的提取具有很高的准确性,在应用于大连理工大学管理学院科研管理系统中文献信息收集与管理上取得了很好的效果.参考文献:1CAIDeng,YUShipeng,WENJitong,eta1.VIPS:avisionbasedpagesegmentationalgorithm,MicrosoftTechnicalReportMSR-TR一2003-79R.Redmond:MicrosoftCorporation,2003.2宋明秋,张瑞雪,昊新涛,等.网页正文信息抽取新方法J.大连理工大学,2021,49(4):594597.3顾韵华,田伟.

19、基于DOM模型扩展的Web信息提取J.计算机科学,2021,36(11):235237.方法J.中文信息,2003,17(4):1926.J.计算机研究与开展,2004,41(1O):17861791.6HAMMARJ,GARCIAstructuredinformgtionfromtheWebJ.SIGMODRecord,1997,26(2):l825.InternetsourcesJ.ACMSlGMODRecord,1997,26(4):815.8冯少卿,都云程.网页结构模板生成新方法研究J.北京机械工业学院,2007,22(3):15-19.9欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法J.清华大学:自然科学版,2005,45(s1):17431747.10肛Xiangwen,ZENGJianping,ZHANGShitemplateforWebinformationandschemaextractionJ.ExpertSystemswithApplications,2021.37(12):84928498.11CleanupyourWebpageswithHTMLTIDYEB/OL. :/

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1