基于FFT的网页正文提取算法研究与实现.pdf

资源描述

《基于FFT的网页正文提取算法研究与实现.pdf》由会员分享，可在线阅读，更多相关《基于FFT的网页正文提取算法研究与实现.pdf（4页珍藏版）》请在三一文库上搜索。

1、计算机工程与应用，（）引言随着的不断发展，页面数量大幅度增加，已经成为巨大的、分布广泛的信息源。许多信息包含在浩如烟海的中，如何帮助人们迅速提取有效信息，成为一个非常重要的问题。针对网页特点，需利用网页结构布局信息对网页进行区域分割，模拟浏览器的显示方式，对网页进行解析。系统根据人类视觉原理，把网页解析处理的结果，进行分块。然后根据用户需求，提取用户需要的相关网页块的内容。利用这种方法，把网页分割成多个区域后，利用一定合理的算法，把不需要的区域过滤掉。这类似于图像处理的流程，在 “ 频域

2、” 把高频噪声去除。当前比较常用的网页分割方法主要有如下几种：（）基于文档对象模型（，）的分割法。找出网页文档里的特定标签，利用标签项将文档表示成一个树的结构；根据特定标签包括、、和等来提取有效的树结点数据。在许多情况下，文档对象模型不是用来表示网页内容结构的，所以利用它不能够准确地对网页中各分块的语义信息进行辨别。（）基于视觉特征的网页分割法（）。整体来说，页面的基于视觉的内容结构是结合树以及一些视觉提示信息而得到的。利用字体、颜色、大小等网页版基于的网页正文提取算法研究与实现李蕾，，王劲林，白鹤，，胡晶晶

3、，，，，，，，中国科学院声学研究所中心，北京中国科学院研究生院，北京，，，，：，，，，（）：： “ ” ，（，，），： “ ”，，，； “” ：；（）；摘要：主要研究 “正文式 ” 网页的有效信息提取算法。该种底层网页真正含有页面所表达的主题信息，通常包含一大段的正文信息，正文信息的前后是一些格式信息（例如导航信息、交互信息、脚本等）。分析了此种网页的页面结构特征，将问题转化为给定一个底层网页的源文件，求解最佳的正文区间；从而提出了一种基于快速傅立叶变换的网页正文内容提取算法。采用窗口分

4、段的方法，利用统计学原理和，得出每个可能区间的权值，从而求解出最佳正文区间。实验结果表明，此种方法能比较准确的对“正文式 ” 网页的有效信息进行提取。关键词：中文信息处理；页面；信息提取；页面结构；；区域分割文章编号：（）文献标识码：中图分类号：基金项目：国家发改委示范工程资助项目（）。作者简介：李蕾（），女，博士研究生，主要研究方向：宽带通信、移动多媒体等领域；王劲林（），男，研究员，博士生导师，中国科学院声学研究所网络与数字信号处理技术研究中心主任，主要研究方向：数字信号处理技术、宽带通信、移动多媒体等

5、领域；白鹤（），男，博士研究生，主要研究方向：宽带通信等领域；胡晶晶（），女，硕士研究生，主要研究方向：宽带通信。，（）英文字母中文字符标点符号连续性前长后短长较长主要位置文档首尾文档中部文档首部表文档三大类信号特征表面特征，根据一定的语义关联，将整个网页表示成一棵树；利用横竖线条将树节点所对应的分块在网页中分隔开来，构成网页的标准分块；每个节点通过一致度（，）来衡量它与其它节点的语义相关性，从而将相关的分块聚集在一起；利用预先设定的一致度（，）作为阈值控制分割粒度，当所有网页的都不

6、小于时，网页分割就可以停止了。基于页面结构特征把网页大致分为首页式、列表式、正文式、评论式等几大类：（）首页式：网站的首页，一般含有多个栏目、图片、动画，以及若干文章标题链接。如：网易首页。（）列表式：信息以列表的方式给出，一般以表格的形式列出若干个条目，经常含有分页功能。例如：某论坛版面的文章标题列表。（）正文式：指含有正文内容的底层网页，一般只含有不超过一篇的文章内容，无评论或评论较少。如：各类网站的含有具体某篇文章的底层网页。（）评论式：除了含有正文，正文后面还跟有若干个评论，以论坛为代

7、表。本文主要研究 “正文式 ” 网页的有效信息提取算法。该种网页真正含有页面所表达的主题信息，通常含有大段的文字内容。通过分析该种网页的结构特征，提出一种基于快速傅立叶变换（，）的网页正文内容提取算法，下面具体论述该算法及其实现。基于快速傅立叶变换的网页正文内容提取算法底层网页的结构特征模型分析底层网页通常包含一大段的正文信息，正文信息的前后是一个格式信息（例如导航信息、交互信息、脚本等）。正文信息具有以下特点：（）位于源文件的中部；（）以中文字符和英文字母为主；（）较为连续的文字；（）正文信息的信号特性类似；（）正文信

8、息与格式信息的信号特性不同。格式信息具有以下特点：（）位于源文件的开头和结尾；（）以标点符号和英文字母为主；（）格式信息的信号特性类似；（）格式信息与正文信息的信号特性不同。文档模型分析：由三大类信号混合而成。（）标记符（），形式为 “标记符标记符属性值标记符 ” 。例： “” “” “”；（）文本自然语言（），即中英文字符组成的句子。例：关于我们；（）脚本程序（）。例：（，），，；（！）。文档三大类信号的特征表如表。数学模型如下：，（! （），“ （））（! （），“ （））

9、，（! ，“ ），（! ，“ ） ! ! ! 其中，表示文档信号，表示英文字母，表示中文字符，表示标点符号，表示随机变量；表示取值为或的序列，（!，“）表示由，组成的方波序列，!表示方波中间位置，“表示方波的宽度。（!，“），! “ ，$ 网页正文提取算法研究本文问题的定义是，给定一个底层网页的源文件，求解最佳的正文区间。对于任何字符串区间（，），（，为源文件的长度，为源文件），都有一个评价值，问题转化为求评价函数的最大解。（，）（，）（， $% ）其中，评价函数（，）表示该文字段（，

10、）是网页的正文的可能性。一个区间以数字对（，）来表示，即到组成的区间。其中，故一个区间就把该所有文字段分成了两组，区间内部组的和区间外部组的。区间内部组包括，区间外部组包括，。整个源文件由组的前一部分，，，组，，组的后一部分，，，组成。区间的权值定义为，组间差之和减去组内差之和。因为正文是中的一段频谱类似、位于中部、连续的文字。组间差大就是差异性比较，组内差小就是组内特征类似。（，）（，）（，）本文采用窗口分段的办法把文字分成若干等长窗口段，分别进行变换之后，以频域的欧氏距离计算信号特性的差

11、异程度，从而来评价组间和组内元素的差别。本文对文字进行预处理，不使用原始的编码值作为信号输入，而是通过统计学的方式，把原始文字转化为正文强度值。对于在位置出现的字符，其正文强度值公式如下：（，） ?（ ! “ ）），， ?（ ! “ ））） & ( ( ( ( ( ( ( ( ) 其中， !是字符出现位置的均值，“ 是字符出现位置的标准方差，是字符出现的次数。因为正文包含更多的中英文字符，而包含较少的标点符号；如果字符是文字类型的（即，，），则用正态分布公式作为其编码转换函数，结果非负；其他字符，则用

12、正态分布加上偏移量的公式，作为转换函数，结果非正。即公式对于中英文字符是正数，对于标点符号是负数。因为正文位于文档中部，而标点符号位于文档两端；所以公式对于中英文字符是把信号强度集中在文档中部，对于标点符号李蕾，王劲林，白鹤，等：基于的网页正文提取算法研究与实现计算机工程与应用，（）是把信号强度分散到文档的两端，如图所示。频繁出现的中英文字符，往往是常用词的反映，其信号强度按比例增大；频繁出现的标点符号，往往是排版格式的反映，例如小于号和大于号，其信号强度在负数方向按比例增大。网页正文提取算法的实现核心原理：正文是中的一段频

13、谱类似、位于中部、连续的文字。通过以下步骤，求解最佳正文区间。（）读入文件，转换为读入文件，转换为，英文字母在，之间，中文在。读入为字符数组，长度为。（）窗口分段窗口的大小为，把文件切分为长度为的若干连续字符段，一共段。同时将后面不足的剩余字符删除；得到字符串数组，长度为。 * ，? ，，（）， ? ，，（），，（）其中，表示窗口的二维数组，表示窗口编号，表示窗口内位置。（）应用统计学原理，对字符进行强度编码转换首先对每一个出现的字符，分析它在文档

14、中分布的规律；通过对字符在文章中的位置进行统计学分析，得到均值、标准方差和出现次数。应用正文强度值公式。根据字符段的字符强度值和所在位置，进行编码转换得到强度值序列。，（，?）（ ? ，?），，（），，（）（）对每一段窗口作对每一段窗口作快速傅立叶变换，得到频域的向量。（）（）各段频域互相求差计算任意两段之间的距离，两段的距离定义如下：各频率上的欧式距离的总合。，（，），，（） ! ，， # （）计算每个区间的权值一个区间定义为若干个连续的窗口的组合，以数字对（，）来表示，也即到组成的区间，其中

15、。故一个区间就把所有窗口段分成了两组，区间内部组和区间外部组。区间内部组包括，区间外部组包括，。所有窗口段由组的前一部分，，，组，，，组的后一部分，，组成。区间的权值定义为，组间差之和减去组内差之和。因为正文是中的一段频谱类似、位于中部、连续的文字。组间差大就是差异性比较，组内差小就是组内特征类似。（，）（，）（，）（，）（）（） ! ，（，）（）（） ! ，（）依据权值排序依据权值从大到小，对区间进行排序。权值最大的区间，即为最佳的正文区间（，）。（）加权平均对于权值大于的区间，

16、进行加权平均，算出平均意义上的最佳正文区间（，）。因为权值小于的区间排名非常靠后，所以可以忽略不计。（，）（，） ! （，） ?（，）（，） ! （，）加速算法：使用累计距离在算法实现中，使用了一种加速算法。使用累计距离表可以快速地计算两个连续组的差值之和，见图。 & ，，，， ! ，，，，，， ! ， & ， & ， & ， & ，实验与结果实验设计与数据选取本文选取窗口。本文仅对“正文式 ” 网页进行研究。从页面结构来讲，该种网页只含有一段正文，没有评论或评论较少；而正文的具体内容则关系不大。为了验证

17、算法的可行性，随机选取网易旅游（：），游天下（：），红袖添香（：），水木论坛（），科苑星空论坛（）这个网站的 “正文式 ” 网页进行实验。各选取个页面，共计个页面。人工观察源代码中正文开始和结束的位置，即正确的正文区间，记作（，）；程序运行结果给出的权值最大的区间，即最佳正文区间，记作（，）；通过加权平均得到的区间，即平均意义上的最佳正文区间，记作（，）。源代码经处理后的总段数记作。则得出权值法求解最佳正文区间准确度，，（）均值均值网易旅游游天下红袖添

18、香水木论坛科苑星空论坛表正文区间准确度与权值法准确度区间（，（，（，（，（，网易旅游游天下红袖添香水木论坛科苑星空论坛表权值法准确度区间的页面个数统计表加权平均法求解最佳正文区间准确度。（）（）（）（）结果图表与分析程序运行结果如表。对每个网站的个页面的运行结果，分别取和的均值。由表可知，该算法对不同结构网页的正文内容提取的准确度都较高。均值都在以上，个网站的均值约为。有类网站的均值在以上，个网站的均值约为。下面分别对各类网页运行结果所在准确度区间（权值法）的页面个

19、数做一个统计。如表和图所示。分析这个网页的页面结构及其对应的实验结果，得出结论如下：（）网易旅游、游天下、红袖添香这类门户网站的页面结构比较复杂。正文前后都有网站的文字链接导航信息，，文字链接式或图片、动画式广告，交互信息，以及网站的版权申明等“噪声 ” 区域。在正文的四周往往还紧跟有热门文章推荐、热门评论、同作者其他文章等若干条文章标题链接以及一些评论文字的干扰信息。这类干扰信息在源代码中与正文文字连接紧密，当正文文字较短（）时，较易对程序的运行结果正文区间的判断造成较大影响（如：程序运行结

20、果把正文前后的其他文章标题链接或评论文字也包括在正文区间内）。（）本文随机挑选水木和科苑星空论坛的各个版（，，）精华区的文章，此类文章较长，对于信息收集和提取来讲也更有价值。页面结构比较简单；正文后面跟有文字签名档；正文中往往含有若干英文单词和一些，发文换行随意；有些文章多版转载。当正文文字较短时，程序运行结果较易把签名档等无关文字信息也包括在正文区间内。（）综合来看，正文长短与文字密集度对于程序判断影响较大。文字越长，越密集（一整段文字，或正文中格式性的代码较少），则结果

21、越好。若换行空行过多，或文字很少的连续若干行出现在文章的头尾，则较易影响正文区间的程序判断。若正文较短（），且正文前后紧跟有其他文章标题链接或评论信息，则运行结果较易把这部分也包含在正文区间内。（）正文中部含有图片，不影响程序判断。因为图片在源代码中以地址的形式出现，所以若图片出现在正文前或后，则较易对结果造成影响。（）在正文内容较长的情况下，即使页面结构复杂，程序运行结果也很好，基本可以区分开正文和页面的其他部分。结论与展望本文主要研究 “正文式 ” 网页的有效信息提取算法。该种类型的底层网页通常包含

22、一大段的正文信息，正文信息的前后是一些格式信息（例如导航信息、交互信息、脚本等）。本文分析了此种网页的页面结构特征，将问题转化为给定一个底层网页的源文件，求解最佳的正文区间；从而提出了一种基于快速傅立叶变换的网页正文内容提取算法。本文采用窗口分段的方法，利用统计学原理和，得出每个可能区间的权值，从而求解出最佳正文区间。实验结果表明，此种方法能比较正确的对“正文式 ” 网页的有效信息进行提取，区分开正文与页面的其它部分。在未来的工作中，将加入对标识符的预处理，改进算法；以及继续研究 “ 列表式 ” ，“评论式 ” 等类型网页的

23、结构特征，从而设计出适应不同页面结构的网页有效信息提取算法。（收稿日期：年月）参考文献：于满泉，陈铁睿，许洪波基于分块的网页信息解析器的研究与设计计算机应用，，（）：王琦，唐世渭，杨冬青，等基于的网页主题信息自动提取计算机研究与发展，，（）：胡飞基于标记树的页面区域划分和搜索方法计算机科学，，（）：常育红，姜哲，朱小燕基于标记树表示方法的页面结构分析计算机工程与应用，，（）：瞿有利，于浩，徐国伟等页面信息块的自动分割中文信息学报，，（）：，，，，：李蕾，王劲林，白鹤，等：基于的网页正文提取算法研究与实现

展开阅读全文