一种基于特征词句子环境的文本分类器.doc

资源描述

《一种基于特征词句子环境的文本分类器.doc》由会员分享，可在线阅读，更多相关《一种基于特征词句子环境的文本分类器.doc（8页珍藏版）》请在三一文库上搜索。

1、一种基于特征词句子环境的文本分类器中图法分类号：TP311文献标识码：A 1 引言中文文本分类是指根据文本的内容，按照用户预先指定的主题类别集合，使用计算机软件自动为每一篇文本确定一个或几个主题类别。实现有指导的文本分类算法主要分两个步骤：训练阶段。使用已知类别的训练文本集，创建文本分类规则。使用文本分类规则，对每一篇未知类别的文档进行分类。任何一篇具有确定主题的文档都是由若干个句子构成的。一个能够用于识别某类文本的特征词集合，按照文档作者的需要，被分散、有重复地安排在若干中文句子之中。一个句子是若干个能够识别文本类别的特征词与其他词汇的混合体。文本分类的训练阶段可以看作从构成文档的所有词

2、汇中抽取特征词的过程。因此，在训练阶段的开始，不妨把构成文本句子的所有词汇通称为特征词。构成一个句子的不同特征词之间，需要服从各种语义及语法约束。换句话说，构成一个特定句子的特征词对内营造一种和谐的句子环境，对外馈送一组特有信息。由此想到，识别某类文本的特征词集合，应该相对集中地分布在文档的若干个句子当中。文本分类的训练阶段可以利用特征词的句子环境，通过聚集5这些句子环境去发现与识别某类文本的特征词集合。本文提出了一种基于特征词句子环境的文本分类方法，介绍了用于创建分类规则的文本句子信息模型，比较详细地给出使用训练文本集，利用特征词的句子环境，获取识别文本主题类别的特征词集合，创建并优化分类

3、规则的训练算法。最后给出分类器性能测试结果及结论。 2 文本句子的信息模型通过识别句号、问号或感叹号等标点符号，一篇中文文档很容易被划分为若干个句子。使用中文处理专用软件可以把句子进一步划分为若干个词汇。把文档或句子划分为词汇的过程，一般称为分词操作。分词操作所产生的词汇经过简单的词汇压缩处理，生成了句子的特征词集合。 2.1 句子的构成及其信息量定义1中，特征词集合w1,w2,wn仍然保持关于集合的最原始性质，即构成集合的元素是无序的。也就是说，在构造文本分类器时，只关注一个句子由哪些特征词构成，而忽略该句子内部特征词之间应该遵循的其他约束（如句子的特征词至少需要按照一定先后次序关系排列

4、等）。 2.2 任意两个句子之间的互信息量相关度 3 分类规则的创建与优化创建分类规则的主要过程以句子为处理对象。 3.1 从句子获取识别文本类别的特征词集使用若干篇已知文本主题类别是ck的文本，执行训练算法，可以获取用于识别ck主题类别文本的特征词集。训练算法描述如下： (1)随机选取已知类别为ck的训练文本若干篇，构成训练文本集。 (2)对每一篇文本，重复如下操作：记下该文本编号，并执行分词操作。经过简单的词汇压缩处理，生成数据表T。数据表T以句子为元素，每一个句子元素由若干个特征词组成。在生成数据表T的过程中，同时统计每一个特征词在ck类训练文本集中出现的次数。 (3)精简数据

5、表T。从数据表T删去在ck类训练文本集中出现次数小于指定阈值的特征词。 (4)再次扫描数据表T，统计任意两个特征词在ck类训练文本集中出现的次数。 (5)使用语句聚集算法，对ck类训练文本集以句子为单位，实施特征词聚集操作。 (6)根据语句聚集算法执行结果，创建用于识别ck主题类别的分类规则。除了步骤（5）之外，训练算法的各个步骤所进行的操作目的都比较明确，操作比较容易实现。 3.2 训练算法的核心：语句聚集算法训练算法步骤(5)所采用的语句聚集算法是训练算法的核心。总体上讲，语句聚集算法的思想是以句子为单位，把那些具有较大统计相关性的句子，聚集成一个有更多特征词的新句子。语句聚集算法具

6、体描述如下：值得注意的是，在语句聚集算法步骤(5.3.2.1)与步骤(5.3.2.2)中，凡是发生两个句子进行并入操作的，都要对两个句子的相同特征词集合中的各个特征词，分别累计并入操作的次数。 3.3 分类规则的创建与优化当系统执行了训练算法的步骤（5）之后，用于识别ck主题类别的所有训练文本的句子，已经被聚集到一个主语句集合MAIN_set之中。执行训练算法的步骤(6)，逐一检查MAIN_set中的每一个句子，删去那些语句聚集过程中并入操作次数低于指定阈值的特征词（乃至删去MAIN_set中的一些句子！），就得到以句子形式组织的识别ck类文本的特征词集。对经过精简后的MAIN_set中

7、的特征词集，以句子为单位，以组合的方式构造形如ckw1,w2,wn的分类规则，就可以得到一个用于识别ck主题类文本的分类规则集合。不难想到，对于不同的ck主题类别，重复训练过程，就创建了一个可以识别多种主题类别的分类规则集合。上述分类规则集合必须经过优化处理，才能用于实际分类操作。其主要原因为：采用上述训练算法产生的分类规则，难免混入一些通用词汇，甚至出现一些单纯由通用词汇构成的规则。这些通用词汇无论在哪一种主题类别的文本中，都有比较高的使用频率。经过训练算法步骤(6)产生的分类规则中，由于文本主题所属领域相近性的原因，使用不同类别训练文本集，可能产生若干个“”左部不同，而“”右部内容非常

8、接近的分类规则。例如，同属于自然灾害类的地震和海啸主题类别训练文本，可能同时出现“地震、伤亡、损失”这样的词汇。一旦由这样的词汇构造分类规则，系统就很难决定文档应该属于地震类，还是应该属于海啸类了。为了优化分类规则，必须另选属于不同主题类别的优化文本各若干篇，构成优化文本集。同时，引入了查全率和查准率定义用于优化过程，检测每一条分类规则的性能优劣。设：参与当前优化操作的文本类别共M类。每一类包含Ci（i=1,2,M）篇文本。若经过优化操作，被当前分类规则集合判别为属于第i类的文本数量有Ti篇，而经过与优化文本自身的实际主题类别核对后，确认属于该主题类别的文本数量有Ri篇。于是，对于第i类文

9、本有优化算法的思想是首先对每一篇优化文本执行分词操作，经过简单的词汇压缩处理后，交付各条分类规则进行文档主题类别的判断，并按照各条规则分类正确与否累计它们的分类结果数据；然后，淘汰那些查全率与查准率偏低的规则。 3.4 训练算法的复杂度创建分类器的时间开销取决于训练算法的时间复杂度。为了获取某一主题类别特征词集，训练算法需要创建并两次扫描数据表T。不过，训练算法的主要开销将由语句聚集算法决定。设：用于获取某一主题类别特征词集的训练文本一共有N篇。假定每一篇训练文本可以划分为M个句子。于是，执行语句聚集算法步骤(5.3)，所涉及句子的上界将是O(NM2)。更进一步地分析，如果每一个句子最多

10、由k个特征词构成，那么，找出句子SE与句子ME的所有相同特征词集合SAME_set的时间开销，将有上界O(k)。因此，训练算法所处理的特征词数量将以O(kNM2)为上界。 4 分类器性能测试和结论 4.1 分类器性能测试及其结果分类器性能测试使用了一个已知文本主题类别的测试文本集。通过对每一篇文本的分类操作，对比文本自身固有的主题类别，计算并得到测试结果数据。测试文本集由总数达到2200篇、分别属于11种主题类别的文档构成。11种主题类别可归纳为四大类：灾害类(含地震类、低温霜冻类、水灾类、冰雹类、旱灾类、火灾类)、社会类(含治安案件类、爆炸类、交通事故类)、建设类(含交通建设类)和经济类

11、(含经济统计报告类)。分类器分类性能测试包括对不同主题类别文本的查全率和查准率，以及系统准确率测试。查全率和查准率仍然采用定义4和定义5。而系统准确率定义如下： 4.2 结论（1）利用文本句子环境引导，能够创建性能良好的分类器。测试结果表明，分类器系统精度达到95%以上。（2）分类器，和参数的选择，对分类器的分类性能会产生一定影响。测试过程曾经对，和采用多种参数取值搭配，其系统准确率变化在0.5%范围之内。（3）训练文本集所包含文本的数量也会对分类器性能产生一定影响。在，和参数分别取值为1，7，2的情况下，每一种主题类别的训练文本集各使用50，30和16篇文本。经过训练后，对分类器进行分类测试，其系统分类准确率分别是96.8%,96.3%，96.1%。可见，训练文本数量减少到原来的三分之一，其系统分类性能下降0.7%，但系统准确率仍然在95%以上。因此，在获取文档条件受限的情况下，使用数量较少的已知主题类别文档，仍然能够创建分类性能令人满意的分类器。本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

展开阅读全文