一种基于特征词句子环境的文本分类器.doc

上传人:吴起龙 文档编号:1592049 上传时间:2018-12-26 格式:DOC 页数:8 大小:17.51KB
返回 下载 相关 举报
一种基于特征词句子环境的文本分类器.doc_第1页
第1页 / 共8页
一种基于特征词句子环境的文本分类器.doc_第2页
第2页 / 共8页
一种基于特征词句子环境的文本分类器.doc_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《一种基于特征词句子环境的文本分类器.doc》由会员分享,可在线阅读,更多相关《一种基于特征词句子环境的文本分类器.doc(8页珍藏版)》请在三一文库上搜索。

1、一种基于特征词句子环境的文本分类器中图法分类号:TP311文献标识码:A 1 引言 中文文本分类是指根据文本的内容,按照用户预先指定的主题类别集合,使用计算机软件自动为每一篇文本确定一个或几个主题类别。实现有指导的文本分类算法主要分两个步骤:训练阶段。使用已知类别的训练文本集,创建文本分类规则。使用文本分类规则,对每一篇未知类别的文档进行分类。 任何一篇具有确定主题的文档都是由若干个句子构成的。一个能够用于识别某类文本的特征词集合,按照文档作者的需要,被分散、有重复地安排在若干中文句子之中。一个句子是若干个能够识别文本类别的特征词与其他词汇的混合体。文本分类的训练阶段可以看作从构成文档的所有词

2、汇中抽取特征词的过程。因此,在训练阶段的开始,不妨把构成文本句子的所有词汇通称为特征词。构成一个句子的不同特征词之间,需要服从各种语义及语法约束。换句话说,构成一个特定句子的特征词对内营造一种和谐的句子环境,对外馈送一组特有信息。由此想到,识别某类文本的特征词集合,应该相对集中地分布在文档的若干个句子当中。文本分类的训练阶段可以利用特征词的句子环境,通过聚集5这些句子环境去发现与识别某类文本的特征词集合。 本文提出了一种基于特征词句子环境的文本分类方法,介绍了用于创建分类规则的文本句子信息模型,比较详细地给出使用训练文本集,利用特征词的句子环境,获取识别文本主题类别的特征词集合,创建并优化分类

3、规则的训练算法。最后给出分类器性能测试结果及结论。 2 文本句子的信息模型 通过识别句号、问号或感叹号等标点符号,一篇中文文档很容易被划分为若干个句子。使用中文处理专用软件可以把句子进一步划分为若干个词汇。把文档或句子划分为词汇的过程,一般称为分词操作。分词操作所产生的词汇经过简单的词汇压缩处理,生成了句子的特征词集合。 2.1 句子的构成及其信息量 定义1中,特征词集合w1,w2,wn仍然保持关于集合的最原始性质,即构成集合的元素是无序的。也就是说,在构造文本分类器时,只关注一个句子由哪些特征词构成,而忽略该句子内部特征词之间应该遵循的其他约束(如句子的特征词至少需要按照一定先后次序关系排列

4、等)。 2.2 任意两个句子之间的互信息量相关度 3 分类规则的创建与优化 创建分类规则的主要过程以句子为处理对象。 3.1 从句子获取识别文本类别的特征词集 使用若干篇已知文本主题类别是ck的文本,执行训练算法,可以获取用于识别ck主题类别文本的特征词集。 训练算法描述如下: (1)随机选取已知类别为ck的训练文本若干篇,构成训练文本集。 (2)对每一篇文本,重复如下操作: 记下该文本编号,并执行分词操作。经过简单的词汇压缩处理,生成数据表T。数据表T以句子为元素,每一个句子元素由若干个特征词组成。 在生成数据表T的过程中,同时统计每一个特征词在ck类训练文本集中出现的次数。 (3)精简数据

5、表T。从数据表T删去在ck类训练文本集中出现次数小于指定阈值的特征词。 (4)再次扫描数据表T,统计任意两个特征词在ck类训练文本集中出现的次数。 (5)使用语句聚集算法,对ck类训练文本集以句子为单位,实施特征词聚集操作。 (6)根据语句聚集算法执行结果,创建用于识别ck主题类别的分类规则。 除了步骤(5)之外,训练算法的各个步骤所进行的操作目的都比较明确,操作比较容易实现。 3.2 训练算法的核心:语句聚集算法 训练算法步骤(5)所采用的语句聚集算法是训练算法的核心。总体上讲,语句聚集算法的思想是以句子为单位,把那些具有较大统计相关性的句子,聚集成一个有更多特征词的新句子。 语句聚集算法具

6、体描述如下: 值得注意的是,在语句聚集算法步骤(5.3.2.1)与步骤(5.3.2.2)中,凡是发生两个句子进行并入操作的,都要对两个句子的相同特征词集合中的各个特征词,分别累计并入操作的次数。 3.3 分类规则的创建与优化 当系统执行了训练算法的步骤(5)之后,用于识别ck主题类别的所有训练文本的句子,已经被聚集到一个主语句集合MAIN_set之中。执行训练算法的步骤(6),逐一检查MAIN_set中的每一个句子,删去那些语句聚集过程中并入操作次数低于指定阈值的特征词(乃至删去MAIN_set中的一些句子!),就得到以句子形式组织的识别ck类文本的特征词集。 对经过精简后的MAIN_set中

7、的特征词集,以句子为单位,以组合的方式构造形如ckw1,w2,wn的分类规则,就可以得到一个用于识别ck主题类文本的分类规则集合。 不难想到,对于不同的ck主题类别,重复训练过程,就创建了一个可以识别多种主题类别的分类规则集合。 上述分类规则集合必须经过优化处理,才能用于实际分类操作。其主要原因为:采用上述训练算法产生的分类规则,难免混入一些通用词汇,甚至出现一些单纯由通用词汇构成的规则。这些通用词汇无论在哪一种主题类别的文本中,都有比较高的使用频率。经过训练算法步骤(6)产生的分类规则中,由于文本主题所属领域相近性的原因,使用不同类别训练文本集,可能产生若干个“”左部不同,而“”右部内容非常

8、接近的分类规则。例如,同属于自然灾害类的地震和海啸主题类别训练文本,可能同时出现“地震、伤亡、损失”这样的词汇。一旦由这样的词汇构造分类规则,系统就很难决定文档应该属于地震类,还是应该属于海啸类了。 为了优化分类规则,必须另选属于不同主题类别的优化文本各若干篇,构成优化文本集。同时,引入了查全率和查准率定义用于优化过程,检测每一条分类规则的性能优劣。 设:参与当前优化操作的文本类别共M类。每一类包含Ci(i=1,2,M)篇文本。若经过优化操作,被当前分类规则集合判别为属于第i类的文本数量有Ti篇,而经过与优化文本自身的实际主题类别核对后,确认属于该主题类别的文本数量有Ri篇。于是,对于第i类文

9、本有 优化算法的思想是首先对每一篇优化文本执行分词操作,经过简单的词汇压缩处理后,交付各条分类规则进行文档主题类别的判断,并按照各条规则分类正确与否累计它们的分类结果数据;然后,淘汰那些查全率与查准率偏低的规则。 3.4 训练算法的复杂度 创建分类器的时间开销取决于训练算法的时间复杂度。为了获取某一主题类别特征词集,训练算法需要创建并两次扫描数据表T。不过,训练算法的主要开销将由语句聚集算法决定。 设:用于获取某一主题类别特征词集的训练文本一共有N篇。假定每一篇训练文本可以划分为M个句子。于是,执行语句聚集算法步骤(5.3),所涉及句子的上界将是O(NM2)。更进一步地分析,如果每一个句子最多

10、由k个特征词构成,那么,找出句子SE与句子ME的所有相同特征词集合SAME_set的时间开销,将有上界O(k)。因此,训练算法所处理的特征词数量将以O(kNM2)为上界。 4 分类器性能测试和结论 4.1 分类器性能测试及其结果 分类器性能测试使用了一个已知文本主题类别的测试文本集。通过对每一篇文本的分类操作,对比文本自身固有的主题类别,计算并得到测试结果数据。 测试文本集由总数达到2200篇、分别属于11种主题类别的文档构成。11种主题类别可归纳为四大类:灾害类(含地震类、低温霜冻类、水灾类、冰雹类、旱灾类、火灾类)、社会类(含治安案件类、爆炸类、交通事故类)、建设类(含交通建设类)和经济类

11、(含经济统计报告类)。 分类器分类性能测试包括对不同主题类别文本的查全率和查准率,以及系统准确率测试。查全率和查准率仍然采用定义4和定义5。而系统准确率定义如下: 4.2 结论 (1)利用文本句子环境引导,能够创建性能良好的分类器。测试结果表明,分类器系统精度达到95%以上。 (2)分类器,和参数的选择,对分类器的分类性能会产生一定影响。测试过程曾经对,和采用多种参数取值搭配,其系统准确率变化在0.5%范围之内。 (3)训练文本集所包含文本的数量也会对分类器性能产生一定影响。在,和参数分别取值为1,7,2的情况下,每一种主题类别的训练文本集各使用50,30和16篇文本。经过训练后,对分类器进行分类测试,其系统分类准确率分别是96.8%,96.3%,96.1%。可见,训练文本数量减少到原来的三分之一,其系统分类性能下降0.7%,但系统准确率仍然在95%以上。因此,在获取文档条件受限的情况下,使用数量较少的已知主题类别文档,仍然能够创建分类性能令人满意的分类器。 本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1