Web信息抽取中的文本分类毕业论文.doc

资源描述

《Web信息抽取中的文本分类毕业论文.doc》由会员分享，可在线阅读，更多相关《Web信息抽取中的文本分类毕业论文.doc（75页珍藏版）》请在三一文库上搜索。

1、摘要摘要在机器学习理论中支持向量机（SVM）有着重要的地位，无论是求解分类问题还是求解回归问题，SVM 都有着广泛的应用。本文简单的介绍了 SVM 的基本原理，讨论了 SVM 在文本分类中的应用，并详细的分析了如何利用 SVM 构造文本分类器。这里说明了文本分类的详细处理过程，并介绍了这些过程中的关键技术，如：分词技术、向量空间模型（VSM）、特征选取技术和 SVM 的交叉验证技术等等。结合着分析和讨论又概略的说明了利用 Microsoft Visual C+ 6.0 创建文本分类系统的过程，介绍了重要的类和关键处理函数的实现和优化，以及如何利用动态链接库来实现 C+到

2、Java 的迁移。最后给出了由本系统得到的实验数据和结论。关键字：机器学习文本分类支持向量机（SVM） ABSTRACT ABSTRACT Support Vector Machines (SVM) has an important position in Machine learning theory, whether it is to solve the classification problem or request for the reunification issue, SVM has a wide range of applications. In this paper

3、, a short introduction into the basic principles of SVM, a detailed discussion of the SVM in the text classification, and a careful analysis of how to make use of SVM to construct classifier for a text classification. Heres the text of the detailed classification process and introduced in the course

4、 of these key technologies, such as: segmentation technology, vector space model (VSM), features selection technology, cross-verification technology of the SVM and so on. With the analysis and discussion also briefly described the process of making use of Microsoft Visual C+ 6.0 to create the text c

5、lassification system, introduced the realization and optimization of the key class and important functions, and how to use of dynamic link library to achieve the migration from C+ to Java. Finally, the experimental data and conclusions produced by this system are shown. Keywords: machine learning te

6、xt classification SVM(support vector machine) 目录毕业设计（论文）原创性声明和使用授权说明毕业设计（论文）原创性声明和使用授权说明原创性声明原创性声明本人郑重承诺：所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。作者签名：日期：指导教师签名：日期：使用授

7、权说明使用授权说明本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。作者签名：日期：目录学位学位论论文原文原创创性声明性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人

8、和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位学位论论文版文版权权使用授使用授权书权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名：日期：年月日导师签名：日期：年月日目录目录第一章第一章引言引言.1 1.1 总体项目背景 .1 1.1.1

9、基于 Web 的信息集成系统1 1.1.2 基于 Web 的信息集成系统的需求和系统结构2 1.2 文本分类系统的任务和目标 .3 1.3 本文主要研究内容 .4 第二章第二章相关理论相关理论.7 2.1 文本自动分类 .7 2.3 支持向量机(SVM)8 2.4 SVM 的原理.9 2.4.1 线性支持向量机.9 2.4.2 非线性支持向量机.11 2.5 SVM 文本分类.13 第三章第三章需求分析需求分析.15 3.1 SVM 的两个阶段.15 3.2 训练阶段目标 .16 3.3 测试阶段目标 .18 3.4 外部接口 .18 第四章第四章总体设计与实现工具的选择总体设计与实现

10、工具的选择.21 4.1 总体结构 .21 4.2 训练阶段 .21 4.2.1 分词及词频统计.21 4.2.2 文本向量空间模型(VSM)及文本特征选取27 4.2.3 文本向量化.31 4.2.4 文本分类器.32 4.3 测试阶段 .36 4.3.1 分词及词频统计.36 目录 4.3.2 文本向量化.36 4.3.3 分类处理.37 4.4 实现工具的选择与跨语言迁移 .37 第五章第五章详细设计与实现详细设计与实现.39 5.1 界面设计 .39 5.2 配置文件 config.xml.40 5.3 LIST 类.40 5.4 Frequency 类 42 5.5 partiti

11、on 函数43 5.6 SORT 类.46 5.7 预处理与文本特征的选择策略的设计 .47 5.8 scale 方法与 Matrix.txt 文件的生成.49 5.9 libsvm 调用 51 5.10 动态链接库 SVMDLL.dll 的实现和接口定义54 第六章第六章测试及结果测试及结果.57 6.1 二分测试 .57 6.2 多分测试 .59 6.3 测试总结 .61 6.3.1 二分情况.61 6.3.2 多分情况.62 致谢致谢.63 参考文献参考文献.65 第一章引言 1 第一章引言 1.11.1 总体项目背景总体项目背景本文主要讨论基于 Web 的信息集成系统中的一个子

12、系统文本分类系统的设计与实现，但这里有必要介绍一下基于 Web 的信息集成系统的基本情况以及文本分类系统在整个项目中的位置与调用关系。 1.1.11.1.1 基于基于 Web 的信息集成系统的信息集成系统基于 Web 的信息集成系统通过统一平台将松散的 Web 信息以统一的规范和编码集成于统一系统平台中，去除平台与系统的差异，提供统一的界面与接口，提高信息的共享与可用性。伴随着互联网技术的发展和大规模的应用，网络已经越来越深刻的影响到人们的生活和社会。人们正快步走进“网络生活”的时代，从学习、工作到生活购物，无一不深深的依赖着互联网。在过去的几年中，有很多的技术与网络事物涌现

13、并应用于现在的网络中，如：网络微应用程序、个人网页、VoIP、网络化桌面、Web2.0 技术、Ajax、网络视频等等。从学习网络到网络生活，互联网给生活带来极大方便的同时，其承载的信息却以几何基数增长着，随着网络社区化的推进和电子商务悄然兴起，快速准确的找到可用信息已越来越有其现实意义。 Web 信息和服务有着分散、庞杂、大量重复、系统差别大等特点，如何能有效的屏蔽平台与系统的差异，将散乱的信息聚合成统一界面与接口的信息系统，更具有现实应用价值。但仅将信息简单聚合并不能满足用户对信息准确定位与获取的需求，而互联网信息又存在着信息概念与含义的多态性，对准确定位可用信息增加了很大

14、的难度。无论是从现在的电子商务、网络新闻还是到网络信息检索、网络信息共享，都有 Web 信息的集成需求与需要。 2 Web 信息抽取中的文本分类 1.1.21.1.2 基于基于 Web 的信息集成系统的需求和系统结构的信息集成系统的需求和系统结构基于 Web 的信息集成系统有着以下的需求：（1）实现多信息源信息的抽取、清洗和合并；（2）对多个信息源进行包装，去除信息源本身特征，提供统一访问接口；（3）实现数据源与系统的松耦合；（4）为用户提供统一的查询界面与结果显示；（5）根据用户的语义进行数据源的准确定位和查询优化；（6）根据用户的偏好进行信息筛选；（7）根据用户的兴趣域

15、进行信息过滤。综合上述需求提出了如图 1.1 所示的系统结构。 1、用户界面用户界面层为用户提供统一、清晰的查询接口及结果呈现模式。用户通过选择领域（或兴趣区域）对结果进行领域过滤，提高查询准确度。用户同样可以通过偏好设置来选择不同的全局模式，只抽取感兴趣的信息。 2、中介器中介器的功能是接收针对全局模式生成的查询，根据数据源描述信息（元数据）及映射规则将接收的查询分解为针对于每个数据源的子查询，再根据数据源描述信息进行查询计划的优化。最后将子查询发送到每个数据源的包装器。 3、包装器包装器将数据源包装成 Web Service 并发布，包装器与中介器绑定之后，接受中介器发来

16、的子查询并将这些子查询翻译成符合每个数据源模型或模式的查询，并把查询结果返回给中介器。 4、支持库为中介器、包装器提供数据及算法支持。 5、数据源可产生结构化和半结构化的数据。第一章引言 3 查询及结果领域设置偏好设置查询分解抽取结果的合并和清洗模式映射查询分发查询分词算法库模式映射表页面生成结果 VSM算法库页面向量 MD5 信息指纹机器学习算法库查询计划及查询语句生成网站一 HTML到 XML 信息抽取领域过滤查询计划及查询语句生成网站二 HTML到 XML 信息抽取领域过滤查询计划及查询语句生成网站三 H

17、TML到 XML 信息抽取领域过滤领域模型抽取规则库用户界面中介器包装器数据源支持库图 1.1 基于 Web 信息集成系统模型及文本分类系统的位置 1.21.2 文本分类系统的任务和目标文本分类系统的任务和目标文本分类系统位于基于 Web 的信息集成系统的包装器中，如图 1.1 所示，实现领域过滤功能，根据领域的需求选择相应的领域模型进行领域过滤。例如：在 4 Web 信息抽取中的文本分类一个图书销售的 Web 信息集成系统中，当用户键入关键字“计算机” ，需要得到计算机领域中有关“计算机”的图书信息的时候，系统应该能够较为准确地过滤掉非计算机领域的图书

18、信息，因为很多领域（如化学领域）的图书都会涉及到 “计算机” 。文本分类系统在整个信息集成系统中仅作为一个较为独立的功能模块，所以在实现这个子系统的时候，需要做到：（1）功能完整（2）封装完整（3）可独立运行（4）调用方便（5）运行高效作为一个插件式的子系统，必须要有完整的功能来保证这个子系统的正常运行并为整个系统提供良好的支持；另一方面讲也需要将完善的功能加以封装，这样才能快速的调整和修改子系统内部的资源和工作模式。文本分类系统被设计成一个子系统而不是一个简单功能函数，这样做的一个好处就是它可以脱离总系统来调试和修改，这一点对于整个系统的开发和集成都是至关

19、重要的。一个子系统最终要被整个系统调用，不能希望一个完全不了解文本分类系统的人完全弄懂这个子系统后再来调用，所以必须提供很好的接口，使调用者能够快速的理解和方便的调用。一个接口的好坏直接影响着整个系统集成的效率和质量。效率也是一个子系统需要重点考虑的问题，一个子系统必须能够高效的完成本模块的任务，这样才成保证整个系统的响应时间，任一个模块的效率低下都有可能成为整个系统的瓶颈致使整个系统失败。 1.31.3 本文主要研究内容本文主要研究内容本文主要研究基于 Web 的信息集成系统中的文本分类系统的设计与实现。下面将简要介绍后边各章节所要讨论的内容，第二章将简单的介绍文本分类所

20、需要的理论和技术，进而研究支持向量机的理论以及这种理论如何应用于文本第一章引言 5 分类当中。在做好理论和技术的准备后，第三章将讨论 SVM 分类器的两个阶段在文本分类的过程中如何应用的问题，最后将分析外部接口定义和如何实现的问题。第四章将详细讨论文本分类的 SVM 方法，经过第三章的研究和讨论，这一章提出了文本分类系统的总体结构，并分别分析了 SVM 方法在训练阶段的四个处理过程和测试阶段的工作流程。由于文本分类系统的设计和开发语言是 C+，但总系统的设计和开发语言是 Java，所以在这一章的最后一部分分析了如何实现跨语言调用的问题。第五章讨论详细设计与实现的问题，包括

21、LIST 类、Frequency 类和 SORT 类三个主要功能类的设计与实现，重要文件和函数的设计与实现，SVMDLL 动态链接库的实现及 Java 接口的定义等。第六章将对整个文本分类系统进行相应的测试，并以图表形式总结出测试的结论。 6 Web 信息抽取中的文本分类第二章相关理论 7 第二章相关理论 2.12.1 文本自动分类文本自动分类文本自动分类(Automatic Text Categorization)也就是用电脑对文本集按照一定的分类体系或标准进行自动分类标记的过程。对于总系统来说，文本的来源为 Web 文本，这种文本有着来源分散、结构松散、文本内容复杂等

22、特点，所以对这种文本进行分类与对来源单一、结构完整、文本内容相对稳定的文献、论文等进行分类有着更多难点。首先来源分散，这使这些文本的格式或者文章涉及的内容复杂多变，很难用文章的来源或者目录索引来进行相应的分类，所以分类器或者分类方法只能根据内容进行分类。其次结构松散，这使得文本的结构不完整，无法获得全部文本的题目、关键字等信息以进行分类，这就要求分类器或者分类方法能够过滤出一定的语义信息并根据这些语义信息进行分类，从某种意义说就是能够提取出区分性很好的，并且代表这篇文章的语义关键字。再次文本内容复杂，Web 文本提及的内容不一定为专业性文章，虽然谈论的主题不变，但所涉及的内

23、容多变，比如一篇军事文章可能还会提及政治经济的内容，这要求分类器具有很强的抗干扰能力，不会因为一些非重要的内容而严重影响分类精度。综上，可以明确一点就是硬性的分类标准很难做到以上三点的分类要求，所以分类时不能简单的规定某种硬性的标准如：某个词是否出现、文章的字数、是否有数学公式等等。文本分类最容易想到使用人工的方法，但面对海量的文本信息人是无能为力的，但是可以通过某种机制来模仿人的分类过程，首先人是需要经验的，没读过文章的人是无法分类文章的，所以分类器也需要学习需要训练，统计学习的理论正好满足要求，另外人是需要一套很模糊的评价标准和推理依据的，所以分类器也需要这样的逻辑过程和

24、模糊机制，人工神经网络算法也正好满足要求。目前，常用的文本分类算法有决策树(decision tree)、人工神经网络、贝叶斯、 8 Web 信息抽取中的文本分类 KNN、SVM 等。综合考虑了性能、分类效果、抗干扰能力等方面的因素，决定使用 SVM 进行文本分类，SVM 算法的特性使它成为一种基于模型的分类方法，它基于统计学习的理论又有人工神经网络的特点，并且在决策树(decision tree)、人工神经网络、贝叶斯等众多分类算法中，SVM 是第一个达到 KNN 分类精度的分类算法。 2.32.3 支持向量机支持向量机( (SVM) ) SVM 方法于 20 世纪 90 年代初

25、由 V. Vapnik 提出。这种方法采用了结构风险最小化的思想，并完全基于超平面的方法，利用核函数进行扩展。支持向量机是数据挖掘中的一个新方法，能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题，并可推广于预测和综合评价等领域，因此可应用于理科、工科和管理等多种学科。目前国际上支持向量机在理论研究和实际应用两方面都正处于飞速发展阶段。它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器，他们也可以被认为是提克洛夫规则化（Tikhonov Regularization）方法的一个特例。这一族分类器的特点是他们能够同时最小化经验误差

26、与最大化几何边缘区，因此支持向量机也被称为最大边缘区分类器。分类的过程是一个机器自动学习的过程这是所希望的。数据通常是 n 维实空间中的点，这里希望能够把这些点通过一个 n-1 维的超平面分开，这个分类器被称为线性分类器。有很多分类器都符合这个要求，但是这里还希望能够找到分类最佳的平面，即使得属于两个不同类别的数据点间隔最大的那个面，该面亦称为最大间隔超平面。如果能够找到这个面，那么这个分类器就称为最大间隔分类器。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之

27、平行的超平面间的距离最大化。其假定为，平行超平面间的距离或差距越大，分类器的总误差越小。下边将详细说明一下支持向量机的原理。充分的理解支持向量机的原理可以有效的帮助分析和理解哪些因素能够决定 SVM 的分类精度，以及在中文文本分第二章相关理论 9 类中这些决定性的因素表现为什么。 2.42.4 SVM 的原理的原理本节中出现的部分公式引自 Usama Fayyad 的A Tutorial on Support Vector Machines for Pattern Recognition或者基于此文中的定义方式，并配以本人解释和简要说明。 2.4.12.4.1 线性支持向量机线性

28、支持向量机如图 2.1 所示，对于可分离的情况，图中黑点和白点为需要分离的两类点，一个超平面将两类点分开，并且在两侧有平行且等距于的超平面和，HHH 1 H 2 H 和将两类点分隔在它们之外。一些临界点就位于和之上。 1 H 2 H 1 H 2 H 对于支持向量机来说，它的分类过程是分两个阶段的：训练阶段和测试阶段。在训练阶段，支持向量机的目标就是要寻找到这样的一个超平面，它到H 和的距离最大，使得和之间有最大的分类间隔。这时的超平面被 1 H 2 H 1 H 2 HH 成为最大可分离超平面，根据结构风险最小化的思想，可以知道，和之间 1 H 2 H 的分类间隔越大，SVM 的经验风险就

29、越小，所以可以通过最大化和之间的 1 H 2 H 分类间隔来最小化实际风险，这也就体现出了 SVM 结构风险最小化的思想。图中为超平面的法线，为原点到超平面的距离，在实际的wH()/ |bwH 求解过程中，可以将这个求解最优化的问题利用拉格朗日乘数法转变为相应的拉格朗日表达式进行求解，为了求解方便一般还要将拉格朗日表达式转化为对偶形式（这也就是 SVM 会被认为是提克洛夫规则化方法的一个特例的原因），这个对偶式连同 KKT 条件就可以求解到最优条件下的和。伴随着和的确定也就wbwb 将最大可分离超平面确定了，但这里还得到计算过程的一些副产品支持向H 量，由于支持向量位于和上，所以支持

30、向量对分类来说更有实用价值。 1 H 2 H 综上，一个明确的事实是：有了支持向量，其它点的意义已经不大了，因为 10 Web 信息抽取中的文本分类仅依靠支持向量就足以重新构造。H 在测试阶段，由于有了前边得到的支持向量，可以很容易的找到最大可分离超平面，所以只要检验测试数据位于哪侧即完成分类工作。HH 图 2.1 可分离情况下的线性可分离超平面圆环是支持向量 1 上边算法用于可分离数据，对于不可分离的数据来说，可以引入一个正的松弛变量来解决问题，如图 2.2，这里出现了一个不可分离的黑点，为此()/ |w 黑点到的距离。 2 H 图 2.2 不可分离情况下的线性可分超平面 1 求解的

31、思想和方法与可分离的情况基本相同，唯一不同的是，在不可分类情况下会多一个 KKT 补充条件，因为这里也多了一个变量。图 2.3 展示了两类模式识别或分类的问题，一个可分离一个不可分离。待分的两类分别由黑点和暗点表示，而支持向量被多加了一个小环。不可分离情况下的错分点被多加了一个叉形来标识。第二章相关理论 11 图 2.3 线性情况下可分离(左)不可分离(右) 背景色表明了决策面的形状 1 2.4.22.4.2 非线性支持向量机非线性支持向量机如何将上边的方法推广到决策函数是非线性函数的情况仍然是个问题。训练问题中数据都是以点积的形式出现。所以可以假设使用叫做的 ij x x 映

32、射，映射数据到某个其他的（可能是无限维）欧式空间：H 式（2-: d R H 1）于是训练算法也就只依靠数据在上的点积，即的形式。现在H ij xx 如果有个“核函数”使，就只需要在训练算法中使用K , ijij K x xxx 而不需要明确的知道是什么。K 由于是无限维的，所以明确知道是什么是不可能的。但是，如果将训H 练算法中的每个都由代替，那么就会产生一个无限维空间中的支, ij x x, ij K x x 持向量机，此外这样做消耗的时间和训练没有映射的数据所消耗的时间大体上是一样的。所有需要考虑的仍然是在做线性分离，只不过是在不同的空间。在测试阶段，只要以同样的方式进行计算就可以

33、了。 , ii K s xsx 需要明确的是不是所有函数都存在这样的二元组使它成为核函数，但,H 可以通过 Mercer 条件来进行判断(Vapnik, 1995;Courant and Hilbert, 1953)：如果存在一个映射和一个展开式式（2- , ii i K x yxy 12 Web 信息抽取中的文本分类 2）当且仅当对于任何都有 g x 是有限的式（2- 2 gd xx 3）那么式（2- ,0Kggd d x yxyx y 4）如果使用不满足 Mercer 的条件的核函数对于二次规划的问题是无解的。但是在这种情况下训练过程仍然是收敛的可以完成的。三个最常用的核

34、函数如下：式（2- ,1 p Kx yx y 5）式（2- 22 | /2 ( , )Ke x y x y 6）式（2-,tanh()Kkx yx y 7）等式（2-5）被称为多项式核函数，等式（2-6）被称为高斯径向基核函数，等式（2-7）被称为 Sigmoid 核函数。图 2.4 展示了与图 2.3 中相同的分类问题的结果，但是这里的核函数选择了三次多项式。注意到对于线性可分的情况（左侧图）尽管三次多项式核函数的自由度更高，但结果还是粗略的为一条直线，说明分类能力是受到限制的；但是对于线性不可分的情况（右侧图），它已经变得可分了。第二章相关理论 13 图 2.6 度为

35、 3 的多项式核函数背景色展示了决策边界的形状 1 最后，尽管上边描述SVM分类器都是二分分类器，但它们是很容易联合起来解决多分的情况的。一个简单的联合方法就是为一个N类的分类问题训练N个one- vs-rest分类器（也就是说，“一个”为正向的，“其余”都为负向），然后将测试数据分入到具有最大的正向距离的一类中，这个方法与决策树工作方法极为类似。 2.52.5 SVM 文本分类文本分类前边已经说过 SVM 在分类方面的表现相当优秀，通过 2.4 节的说明，知道 SVM 是数学上的一套方法，所以 SVM 是无法处理非数字的东西的，比如文字、图片和声音等等，但有时又有必要对这些集合进

36、行分类。对于计算机中的图片和声音而言，这一点是很容易转换或者解释的，那就是这些图片和声音在计算机中的存储形式就是数字化，这就提供了应用 SVM 进行图片和声音分类的数字基础，所以在经过滤波、降噪等等一系列预处理后，就可以通过训练来训练出一个需要的 SVM 分类模型。当需要分类的时候只需要把数据经过相同的预处理，就可以应用这个分类模型来分类了！而对于计算机中的文字来说，其存储形式虽然也是数字化的，比如 ANSII、Unicode 等等，但这些是无法直接拿来用 SVM 处理的，这是为什么？首先，可以明确的是图片和声音的数字化是能够直接反应这些图片或者声音本质的，也就是说这些数字可以

37、说明或者表达出这个图片或者声音中有什么，而单纯的 ANSII 或者 Unicode 序列是不能的，因为不能通过这样的一个单纯的序列来断定文本的意思，文本中意思的传达是通过词语实现的，离散的单字是无法表 14 Web 信息抽取中的文本分类达出文本的语义信息的，这就像盲人摸象一般。其次，如果采用这种 ANSII 或者 Unicode 序列来进行文本分类，得到的结果就是，这两篇文章在外表上很像，也就是说字符串的序列差别很小，这类似于说两个人长得很像，却没有说明两个人的职业相同。再次，在中文中存在着一字或一词多词性和多语义的问题，如果仅仅依靠字符而不考虑词性的问题，同样也会影响分类精度

38、，同时有些词语如介词、助词、副词等对语义的表达无关紧要，所以一并处理不但浪费时间而且会降低分类精度。综上，SVM 在文本分类中，必须要对文本进行某种特殊数字化的处理，这种处理是基于词语的语义和词性的，可以将一篇文章以某种向量化的形式表现出来，这个过程称之为文本向量化的过程。这个过程也就是决定 SVM 文本分类精度的关键因素，其目标就是尽量降低文本不可分的程度。只有经过向量化的文本才能使用 SVM 进行训练和测试。具体怎样进行向量化以及如何通过提高特征的选取的质量来降低文本不可分的程度都将在第四章中讨论。第三章需求分析 15 第三章需求分析 3.13.1 SVM 的两个阶段

39、的两个阶段 SVM 在使用的过程中是分两个阶段的，一个是训练阶段也可以被称为学习阶段，另一个是测试阶段也可以称为使用阶段。图 3.1 为 SVM 两个阶段的模型。训练阶段实际上就是利用统计学习的理论来总结经验的过程，SVM 基于结构风险最小化的思想，寻找训练数据分界面，也就是“分离超平面” 。首先 SVM 将这些低维空间线性不可分的数据利用满足 Mercer 的条件的核函数映射到高维空间来实现线性可分，然后利用拉格朗日乘数法求解这个最优化的过程，为了降低运算难度将拉格朗日表达式转化为其对偶形式，利用梯度表达式进行支持向量的求解，并利用支持向量和 KKT 条件推导的不等表达式求解出最

40、优超平面。训练模型训练数据集测试测试数据集结果图 3.1 SVM 处理过程的两个阶段在测试阶段 SVM 重新载入训练阶段所保存下来的支持向量，还原最优超平面，将测试数据带入最优超平面的表达式得到分类结果。对于总系统来说，并不需要关心训练阶段怎样完成，也不需要关心训练用了多少数据和时间，它所需要关心的就是如何调用实现好的接口来完成测试阶段。所以可以这样说，训练阶段的效率高低并不重要，但测试阶段的效率就要重要的多，如果太慢它将成为整个系统的瓶颈。 16 Web 信息抽取中的文本分类对于本子系统来说，训练阶段则要重要的多，因为测试阶段是依赖于训练阶段的，训练阶段为测试阶段

41、提供所需要的文件和分类模型，没有训练阶段测试阶段就无法完成；另外训练阶段的训练质量也严重地影响到测试阶段的分类精度，如训练数据集的代表性、分类器的参数选择、训练数据集的数据模式等等。 3.23.2 训练阶段目标训练阶段目标文本分类系统在训练阶段对文本要利用向量空间模型（VSM）的方法进行向量化。首先利用分词和词频统计的方法将文本分解，然后利用一定的特征词选择策略进行特征选择，并将文本分词相对于文本特征集进行向量化，而这个过程也就是文本向量化的过程。从某种意义上说这种文本向量就反应出了文本描述的主题内容，而按照策略选择出的文本特征集是很具有区分性和代表性的，所以文本向量在一定程度

42、上是可以反应出文本相似度的。如下结论也是成立的：相同文本其相对于同样的文本特征集的文本向量必然相同，不同的文本其文本向量的相似度越大，文本向量的差值就越小。由于文本分类系统的训练阶段相对独立且处理过程和策略很多，所以在这个子系统中应该达到以下几个目标：（1）准确、快速、稳定的分词系统。这要求分词系统能够有效的识别词语的词性并正确处理文本的二义性进行准确的分词，分词系统还必须具有良好的数据结构和高效的算法能够高速的处理海量的分词请求，在处理的过程中不会因为外界的因素而引起分词的不确定，也不会因为文本格式的问题而产生任何的异常，能够处理任意复杂的文本环境。另外分词系统还必须能够过

43、滤一些无用词语并增加一些用户自定义的词语。分词处理的开销将占本系统开销的 60%，所以分词系统好坏直接影响到系统成败。（2）高速的词频统计功能。词频统计必须能够同步的伴随分词处理进行高效准确的词频统计。（3）较为健全的特征选择策略。由于待分类的文本的多样性，必须要提供较为健全的特征选择策略。不同的文本在不同的策略下所达到的分类效率和精度将会不同。第三章需求分析 17 图 3.2 经过 scale 后的分类精度由 66.925%提高到 96.15% （4）高速稳定向量化方式。在文本向量化的过程中必须能对向量进行 scale 操作，也就是要能将向量映射到某个范围空间中，如（0.1

44、）空间，这样可以降低 SVM 的运算复杂度提高运行效率，一定程度上也能提高分类精度，如图 3.2 所示。（a）训练数据和过度拟合分类器（b）在测试数据上使用过度拟合分类器（c）训练数据和更好的分类器（d）在测试数据上使用更好的分类器 18 Web 信息抽取中的文本分类图 3.3 一个过度拟合的分类器和一个更好的分类器（和：训练数据和：测试数据）（5）能够对 SVM 的参数进行自动的优化。对 SVM 的分类参数进行优化不但可以提高 SVM 的分类精度而且可以极大的提高 SVM 的工作效率。通过交叉验证的方式对参数进行优化，可以对分类器进行全局最优化防止过度拟合情况的发生，如

45、图 3.3。（6）由于上述操作涉及内容加多，可控可变的参数也很多，所以必须提供图形化的界面工具方便训练阶段的完成。（7）训练阶段完成后必须能够向测试阶段提供特征文件和分类模型。 3.33.3 测试阶段目标测试阶段目标测试阶段的基本处理过程与训练阶段极为相似，所以在这个阶段可以大量复用训练阶段的数据结构和方法。在测试阶段不进行文本特征的筛选，仅利用训练阶段保存的文本特征文件重新载入文本特征，并参照文本特征进行文本向量化， SVM 载入训练阶段生成的分类模型对文本向量进行分类并保存分类结果。在这个阶段需要达到一下几个目标：（1）快速的载入文本特征；（2）准确、快速、稳定的分词系统

46、；（3）高速的词频统计；（4）快速的对文本进行向量化和 scale 操作；（5）SVM 载入分类模型快速分类。测试阶段的效率关系到总系统的效率，而在这个阶段分词及词频统计的开销将占到总开销的 80%左右，所以无论在训练阶段还是在测试阶段分词系统的好坏至关重要。 3.43.4 外部接口外部接口在训练阶段的处理中需要一个完善的图形化的工具来辅助完成训练任务，但在测试阶段必须将整个工作流程封装在一起能够自动的完成，对于总系统来说，它并不关心是否有训练阶段还是有测试阶段，唯一需要的就是方便的调用提供的第三章需求分析 19 方法来完成分类处理。提供一个良好的接口（如图 3.4）对

47、于后期的集成同样至关重要：（1）完好的封装性，封装完整有效地屏蔽了实现细节并实现了保密性。图 3.4 接口模型（2）简单，封装好的接口相对简单，函数名称和参数名称直观易懂。（3）方便，接口函数的数量有限且功能完善，调用时有足够的返回，能够有效的定位错误。（4）对于跨语言的调用提供良好的调用接口，不需要在接口外部进行跨语言平台的处理。 20 Web 信息抽取中的文本分类第四章总体设计与实现工具的选择 21 第四章总体设计与实现工具的选择 4.14.1 总体结构总体结构在综合考虑了第三章中提出的各种需求的情况下，这里提出了文本分类系统的总体结构如图 4.1。以下将分析各个过

48、程的作用和其中使用的关键技术。文本特征选取文本特征词频统计表文本向量化支持向量机分类模型训训练练阶阶段段格式化文本集停用词分词词频统计词频统计表文本向量化支持向量机分类结果分分类类阶阶段段文本向量矩阵文本向量矩阵分类设置分词词频统计训练文本集图 4.1 文本分类系统的整体工作模型 4.24.2 训练阶段训练阶段 4.2.14.2.1 分词及词频统计分词及词频统计在本系统中时间复杂度是最大的挑战，所以必须在设计的过程中尽量降低时间的消耗。分词与词频统计绝对是可以分开实现的，但如果这样在分词处理后还 22 Web 信息抽取中的文本分类要

展开阅读全文