基于主动学习的语义缺失问句补全.pdf

资源描述

《基于主动学习的语义缺失问句补全.pdf》由会员分享，可在线阅读，更多相关《基于主动学习的语义缺失问句补全.pdf（60页珍藏版）》请在三一文库上搜索。

1、 - 硕士学位论文硕士学位论文基于主动学习的语义缺失问句补全 COMPLETION OF SEMATIC LOSS QUESTIONS BASED ON ACTIVE LEARNING 易博易博哈尔滨工业大学哈尔滨工业大学 2012 年年 12 月月 - 国内图书分类号：TP 391.3 学校代码：10213 国际图书分类号：621.3 密级：公开工学硕士学位论文工学硕士学位论文基于主动学习的语义缺失问句补全硕士研究生：易博导师：王晓龙教授申请学位：工学硕士学科、专业：计算机科学与技术所在单位：深圳研究生院答辩日期： 2012 年 12

2、月授予学位单位：哈尔滨工业大学 Classified Index: TP 391.3 U.D.C: 621.3 Dissertation for the Master Degree of Engineering COMPLETION OF SEMATIC LOSS QUESTIONS BASED ON ACTIVE LEARNING Candidate: Bo Yi Supervisor: Prof. Xiaolong Wang Academic Degree Applied for: Master of Engineering Specialty: Computer Science an

3、d Technology Affiliation: Shenzhen Graduate School Date of Defence: December, 2012 Degree-Conferring-Institution: Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 I 摘要交互式问答系统需要对上下文的语境进行处理，才能使系统有更强的理解交互能力。问句的语义缺失现象是必要处理的核心问题之一。在交互式问答系统中，存在着大量的语义缺失的问句。实际的汉语语境中亦是如此。本课题使用 wizard-of-oz 方法模拟真实语境中的问答对话收

4、集语料，其中语意完整的问句所占比例超过一半，可由系统直接进行处理；而余下的语义缺失问句占 45%，进行省略恢复后，可以提升系统上下文语境的理解能力，返回满足用户需求的答案。课题首先提出语义缺失问句补全系统的处理流程。而首要步骤便是将用户问句分类，划分为四个类别：语义完整类型，名词性省略类型，指代类型和其他类型。使用词法和句法分析工具对问句进行解析，观察分析语料的语言学现象进行特征的抽取。然后使用四种不同的分类算法对分类器进行训练。ID3 决策树算法性能较优，正确率为 80.1%。问句分类处理之后，系统需要对语义缺失类型的问句使用先行语恢复补全模型进行处理。其中对名词性省略类

5、型和指代类型分别进行了特征的抽取和分类器的训练，最后确定先行语。分别在人工收集和 TREC 评测的语料集上进行实验。在 TREC 语料集上的实验结果与他人的结果做了对比，准确率提升八个百分点，达到 74.6%。接着，本课题引入主动学习机制来对系统性能进行改进。先是针对语义缺失问句的分类过程使用主动贝叶斯网络和基于相对熵的委员会方法实现主动学习的过程。在扩展的语料集上进行对比实验，其中主动贝叶斯网络的性能高于 baseline，基于相对熵的查询方法与 baseline 性能持平；然后针对先行语的恢复分类过程使用基于投票熵的委员会方法实现主动学习过程。将用户反馈功能和主动学习机

6、制相结合，可以使系统动态更新语料，不断提升系统性能。设计三组对比试验，验证基于用户反馈的主动学习机制带来性能上的改进，提升两个百分点，达到 77.9%。关键词：问句分类；省略恢复；主动学习；交互式问答；哈尔滨工业大学工学硕士学位论文 II Abstract Interactive question and answering makes up many defects traditional search engine and normal question and answering have. Compared to the former, it could provide mor

7、e relavent and more precise information. Compared to the latter, it has the better ability of interaction and natural language understanding so the high quality result is returned. Interactive question and answering needs to process contextual information so the ability of understanding is enhanced.

8、 In context, the research about lack-of-semantic questions is necessary to do as one of core problems. There exists many lack-of-semantic questions in interactive question and answering system and also in the real Chinese context. According to statistics of the corpus in real environment by wizard-o

9、f-oz, about 45 percent of questions are lack-of-semantic questions. Without recovering missing information, the system could not get the user intention. Thus, the recovery of ellipsis questions is a crucial step in process of interactive question and answering. The questions are divided into four ca

10、tegories which are semantic integrity category, noun ellipsis category, reference category and other category by machine learning methods. Firstly, use the morphology and syntax information to extract feature and then train the classifiers and compare them. At last, the ID3 method is chosen and the

11、precision reaches 80.1%. After classification, the recovery-completion model is put forward to define the searching space of antecedents. To deal with different categories, use corresponding methods to recover questions. Use the syntax and semantics information to extract features, train the classif

12、ier and determine the antecedent. Noun ellipsis category and reference category are processed by SVM classifiers. Experiment is on the corpus of manual collection and TREC. Then the result of recovery of questions are evaluated. By the experiment on the corpus in TREC, the precision arrives at 74.6%

13、 and get some improvement compared to others. 哈尔滨工业大学工学硕士学位论文 III Then the active learning based on the user feedback is put forward to improve the precision of system. Firstly, the scale of the corpus of manual collection and TREC is enlarged. Through designing three groups of experiments, its impr

14、ovement is proved by experiment and reaches 77.9%. Keywords: question classification, ellipsis recovery, active learning, interactive question and answering 哈尔滨工业大学工学硕士学位论文 III 目录摘要 . I ABSTRACT II 第 1 章绪论 1 1.1 研究背景及意义 1 1.2 国内外研究现状 2 1.2.1 交互式问答研究现状与分析 2 1.2.2 省略恢复研究现状与分析 . 4 1.2.3 主动学习研究现状与分

15、析 . 6 1.3 相关技术介绍 . 7 1.3.1 语法语义资源 . 7 1.3.2 分类算法介绍 . 8 1.4 本文主要研究内容与组织 10 1.4.1 本文内容 10 1.4.2 本文的组织 11 第 2 章语义缺失问句的分类 . 12 2.1 引言 . 12 2.2 系统处理流程的设计 12 2.3 语义缺失问句的类别解析 13 2.3.1 语言学相关分析 . 13 2.3.2 语义缺失问句的类别划分 . 14 2.4 分类特征选择 . 16 2.4.1 特征抽取 16 2.4.2 特征选择与分析 . 19 2.5 实验与分析 . 19 2.6 本章小结 . 21 第 3 章上下

16、文缺失信息恢复 . 22 3.1 引言 . 22 3.2 先行语恢复补全模型 22 3.3 指代类型的处理 23 哈尔滨工业大学工学硕士学位论文 IV 3.3.1 先行语特征抽取 . 24 3.3.2 特征评估与实验 . 27 3.4 名词性省略类型的处理 28 3.4.1 类型分析 28 3.4.2 特征抽取与实验 . 28 3.5 实验结果测评 . 29 3.6 本章小结 . 31 第 4 章基于主动学习的性能改进 . 32 4.1 引言 . 32 4.2 基于主动学习的问句分类 33 4.2.1 主动贝叶斯网络 . 34 4.2.2 基于相对熵的委员会方法 . 35 4.2.3 实验与

17、讨论 36 4.3 用户反馈与主动学习的结合 37 4.3.1 基于投票熵的委员会方法 . 38 4.3.2 实验与讨论 39 4.4 本章小结 . 40 第 5 章功能演示及后续工作 . 41 5.1 引言 . 41 5.2 功能演示 . 41 5.2.1 海天园交互式问答系统介绍 41 5.2.2 系统演示 42 5.3 后续工作 . 43 结论 . 45 参考文献 46 攻读学位期间发表的学术论文 . 50 哈尔滨工业大学硕士学位论文原创性声明 51 哈尔滨工业大学硕士学位论文使用授权书 51 致谢 . 52 哈尔滨工业大学工学硕士学位论文 - 1- 第 1 章绪论 1.1 研

18、究背景及意义本课题源自于实验室的科研项目：海天园中国交互式网络知识服务平台和知识社区。本课题旨在使海天园中的自动问答系统具有交互式问答系统的特性，即系统可以处理上下文相关信息，而不仅仅将用户的每个问句都视作独立的处理单位。近十几年来，互联网上的信息资源呈迅猛增长。为使用户及时获取自身需求的资源，搜索引擎应运而生。搜索引擎以关键字为处理单元，提供用户信息。但是传统的搜索引擎信息获取效率不足以满足用户的需求，它拥有诸多缺陷：返回的答案结果以文档为单位，数目众多，无关性信息多；用户以关键词组合查询来表达自己的信息需求，意图不明确；用户的资源查询无上下文关系，每次查询独立，交互性的

19、缺失和语义理解的缺失不会有高质量的答案返回给用户1。交互式自动问答系统能够使用户高效获取信息，得到有效的答案。交互式问答系统使人与机器的交流像人与人之间的交流一样自然。它可以接受用户以自然语言问句的形式表达信息需求，信息不限定于某个领域，系统处理问句之后返回简洁并且准确的答案2,3。交互特性可以使问答系统摒弃用户多次查询独立的处理方式，能够利用上下文获取完善的用户知识需求的信息。通过交互能够修正对用户问句信息的准确理解，从而处理复杂的问题4。交互特性中上下文的处理将分析连续问句的信息关联，补全省略缺失的话题信息等。因此，交互式问答系统能够根据不同的用户有不同的个性化的处理，

20、类似于人与人对话，一种双向的信息交流，从而能够准确理解用户的信息需求的意图，提供高效的信息服务。不仅仅在英语语言中，在中文语言中省略现象也是一个普遍出现的语言现象。在交互式问答系统中，经常出现用户针对某一话题进行连续的相关问题的提问，而这些问句之间经常会有语义上的联系，经过语料的收集与统计， 45.43%的问句会出现信息缺省的现象5。因此这些问句的上下文相关信息处理将大大影响交互式问答系统的性能。在语言学中，省略现象也是一项十分重要的研究内容。通过对省略现象的了解和深入研究，可以对计算机中的自然语言处理领域提供更多的语法规哈尔滨工业大学工学硕士学位论文 - 2- 律的借鉴和参

21、考。其中，在自然语言处理中的机器翻译、信息抽取等领域，需要大量处理省略现象和指代现象。在交互式问答领域，省略现象的处理是不可缺少的一个重要处理环节。为进一步加强交互式问答系统的交互特性，在问句上下文相关信息处理之后要进行用户反馈信息的收集和学习，以便于有更准确的上下文理解和更准确的问句恢复能力。用户反馈环节可以加强系统的性能，同时也会影响用户的使用体验，保持一个良好的平衡至关重要。 1.2 国内外研究现状 1.2.1 交互式问答研究现状与分析作为人机交互的热门研究方向，自动问答已经有了长足的发展历史。早在国外 60 年代人工智能刚刚萌生之时，自动问答系统的实现设想便被提出。图

22、灵于早先便思索过机器是否可以发展出智能的问题。其中他提出的经典的图灵测试便是通过人机在一定时间内的对话，由人来判定交谈对象是否是机器6。目前通过专业测试人员的测试，还没有机器能够达到 30%的欺骗成功率。近些年来，从早期的问答系统 STUDENT7到现在比较著名的 TREC 会议的 Question Answering Track 评测专项，交互式问答系统获得了快速的成长和发展。当今许多国家也有交互式问答的项目研究，比如美国的 AQUAINT(Advanced Question Answering for Intelligenc

23、e)项目，旨在为信息收集工作中能够依据海量数据做连续复杂问句的回答；意大利的 ADAMACH(Adaptive and Meaning Machines)项目旨在使用机器学习方法建立一个自适应语音模型；还有荷兰的 IMIX 项目和法国的 RITEL 项目等等。从目前交互式问答的系统来看，大多数系统的结构都具有这样几个部分：输入模块指人机接口，可能是文本、语音、图形等媒介，像 Siri 既有文本的接口也具有语音输入的接口；交互信息处理模块对上下文交互状态的存储和更新的进行维护；分析模块根据上下文对问句做深入的分析；问答处理模块负责

24、解析和检索问句，并对答案进行生成；输出模块使用相应的人机接口对自然语言形式的答案进行输出。从应用的角度看，交互式问答的研究包括问句信息的上下文处理。其具体指问句是否完整的判别，指代或者省略现象的消解，消解后的补全策略。研究还包括复杂任务的交互处理，比如 HITIQA 系统8引导用户在一个具有结构化的答案空间中进行信息摄取的交互。研究在限定信息下的自适应交互策哈尔滨工业大学工学硕士学位论文 - 3- 略方面也有很多的应用尝试。交互式问答系统领域一个比较著名的评测便是 TREC QA 专项评测，它由 1999 年的文本检索会议（Text Retrieval Conference）上

25、开始引入并连续举办。从 TREC1999 到 TREC2004 举办的评测来看，每年的评测方法指标和具体的评测任务都有所不同，因此不具有跨年度对比的特性，但是依然大大推进了该领域技术的发展。评测使用的问句大都由人工制造，并且以事实类的简单问句为主。任务一般包含如下几项：Factoid 任务，基于简短事实；List 任务，需要答案列表来覆盖问题的需求条件；Definition 任务，定义概念的解释； Context 任务，基于前文的问句才能更好地处理当前问句；Passage 任务，返回一段包含答案的文字； Other 任务，综合上述任务，考察总体性能。在 TREC2004 评测

26、中，性能最好系统的准确率达到 60.1%。9-14 从 2006 年开始，为促使问答系统从事实类问题向更复杂的基于用户上下文富信息的问题的转变和从命中答案信息的模型向与用户交互的模型的转变，TREC 开始举办 CIQA(complex, interactive Question Answering)评测专项 15,16。其主要任务要求系统能够提供一系列相关问题的答案，问题系列聚焦于一个人，一件事物或是一个机构等等。问题类型包括 Factoid，List，Other 等等。Other 类型的评测依然使用 F-score 指标。系统的评测由评测人员扮成用户通过浏览器进行交互，根据相关信息块

27、的重要程度进行标注统计。近年来 NTCIR(NII-NACSIS Test Collection for IR Systems)评测也设置了跨语言问答系统的评测专项。综合来看，交互式问答系统的性能距实用化有不小的一段距离，有很大的研究和提升空间。但是评测会议依然推动了交互式问答领域的发展。在往届的评测中，中科院计算所，哈尔滨工业大学，复旦大学等都获得了不错的成绩14，在该领域的研究中都做了有价值的尝试。从参加评测的系统所使用的技术上来看，对自然语言处理和语义资源的合理运用十分关键。而那些性能相比突出的系统一般都是将浅层的自然语言处理技术和比较简单的类似于模板的字符串处理技术相结

28、合，从而达到不错的效果。对话系统的研究对交互式问答系统的研究具有相当的借鉴意义。通常对话系统面向的是限定领域的回答任务，它的基本接口有文本和语音作为形式媒介。它经常在具体的某一任务事务中给用户提供信息服务。比如：通过语音指令进行机票的预定17。通常在这种限定域的系统都使用语义模板的方式来进行处理。其具有实用性强的优点，信息服务效果好，但是其缺点也十分明显，只能提供特定范围的信息服务，采用数据驱动的方法来进行改进是一哈尔滨工业大学工学硕士学位论文 - 4- 个不错的尝试。基于聊天机器人的问答系统也值得参考与借鉴。十分具有代表性的一个聊天机器人便是 ALICE(Artifici

29、al Linguistic Internet Computer Entity)问答系统 18。它没有使用深层次的自然语言处理也没有复杂的算法设计，它仅使用模板匹配机制便获得了惊人的实用性能，在 2000 年，2001 年和 2004 年获得 Loebner Prize 冠军，一个实例化图灵测试的比赛。它设计了一套自己的脚本语言 AIML(Artificial Intelligence Mark-up Language)，从而提供了灵活的模板匹配功能，能够对用户的信息进行上下文的记忆，简单的省略和指代现象的处理，相关知识的处理等等。其中构建的模板规模有 4 万个类别，具有日常聊天的信息

30、和专业领域的一些知识，并且提供了可扩充的接口，以及分析聊天记录进行再扩展的能力机制。另一个获得过 Loebner Prize 冠军的机器人是 Jabberwacky19，它的最大特点能够借用人的智能来进行人机对话，具有从对话中学习积累知识的能力。它也是由模板技术来处理上下文的相关信息。当下最具有影响力的智能助手 Siri20提供语音和文本两种交互接口。它可以提供聊天服务和知识信息的服务。它在后台集成了多种功能接口：网页检索，知识推理与检索，百科知识库和推荐系统等等。国内的交互式问答系统领域近年来也在不断发展，系统方面例如香港城市大学的 buyans 系统21和清华大学的小

31、图聊天机器人22等。在往届 TREC QA 的评测中，中科院计算所，哈尔滨工业大学等都获得了不错的成绩，在该领域的研究中进行了有价值的尝试。综上所述，交互式问答技术的发展距离实用化还是有一定的距离，性能成熟的系统和统一标准的评测方法的探索与研究任重道远。 1.2.2 省略恢复研究现状与分析在语言学研究领域，省略现象是一种复杂的语言现象。经过百年的研究发展，仍有很多研究看法上的分歧和不同，现将领域内的共识做如下介绍。省略的研究大致分为三个时期：早期的研究主要面向于古籍的研究；马氏文通23的出现推动了省略研究在语法层面上的独立发展；接着随着三个平面的提出与其得到普遍共识，省略研

32、究进入繁荣期，研究方法和理论呈百花齐放的局面。具有普遍共识的省略界定方法做如下介绍。马氏文通认为“对话、承上、命令或避重名”是造成省略现象的原因23。王力在文献24中做了省略的哈尔滨工业大学工学硕士学位论文 - 5- 界定： “凡比平常句子形式缺少某部分者，叫做省略法” ，将省略看做一种特殊的简洁的表达方式而不是一种缺点，并且经常是一种习惯性的承接法24。吕叔湘在文献25中将省略描述为：一句话必须添补“特定”的词语才能说清楚，并且离开说话的语境就意思不清楚25。三个平面理论是当前各种省略研究的一个重要共识。其中三个平面分别指：句法层面的分析理论，从句法结构中必不可少的结构成

33、分来分析；语义层面的分析理论，对客观事物之间的比如施事、受事、时间等关系的分析；语用层面的分析理论，侧重于语篇的焦点，话题类型等语境方面的分析。各种省略研究理论几乎都以此为研究的思路基点。从省略成分的角度看，马氏文通23提出了“主次” 、 “宾次” 、 “偏次” 的省略。不同方法针对省略成分的看法有分歧，其中主语和动词的省略分歧不多，而宾语省略，定语省略，状语省略和补语省略有较大分歧。因为定语、状语、补语是非框架的成分，其存在本身具有不确定性26。在计算机的研究领域，省略恢复的研究已有一段时间。广义上讲：共指消解、指代消解、零型指代消解都属于省略恢复的研究范围。国外大多都在

34、篇章的级别上研究零型指代消解问题。Ryu Iida 等人提出了将其分解成两个子任务：零型指代消解现象的判定和先行语的识别27。依据此种思想在日文语言上进行了实践，但特征选取不够理想，只有词法及中心理论的规则特征，实验效果一般。因此文献28在句法层面上使用句法模式结构的抽取来强化特征，提升了模型的处理效果。共指消解的研究大多在特征的抽取和分类器的使用上进行了研究与优化29,30。指代消解的研究也有多年的历史，早期由 Hobbs 提出使用句法解析树和语义分析的方法来进行人称代词的指代消解31。近些年许多学者使用机器学习的方法来进行研究。文献32使用支持向量机来进行分类，特征抽取了句

35、法和词法信息。通过自动获取语义模式，扩充特征数量，是提高系统性能的有效方式28,33。国内在省略恢复方面的研究一开始集中于偏理论方面的研究，比如李旺等人根据语篇表述框架理论（DRT），提出一个用于对比填充的框架来确定缺失的语法内容34等等。近些年来，也出现了许多实践方面的尝试。比如文献35使用三种简单的特征进行人称代词的消解：语法角色成分特征，性别特征，还有单复数特征。使用权值计算的方法来解决。文献35-37针对省略问句进行了研究，首先进行话段的边界划分，然后对省略现象进行判别，最后使用中心理论规则化的哈尔滨工业大学工学硕士学位论文 - 6- 方法进行恢复补全。文献38的

36、研究思路类似，先将省略问句进行分类，再使用权值计算的方法针对不同类别进行恢复处理。 1.2.3 主动学习研究现状与分析分类问题在机器学习相关的各个领域有广泛的应用，比如自然语言处理领域，图像处理领域，网络安全领域等等。不仅仅是分类算法，对训练样本集的分类学习过程会影响最终分类器的性能。大多数学习分类过程可以认为是一种被动学习的过程，它只是随机地在训练样本集中抽取选择样本。这种被动学习的过程默认训练样本在训练集空间中是独立同分布的。因此它会存有潜在地学习缺陷：分类器会学习冗余样本或者噪音样本，误差噪音可能还会积累和向后传播；顺序学习训练样本可能会使分类器对数据的顺序特性过分相关

37、；缺乏训练样本集能够有效扩展的特性。39 因此，根据分类学习过程中对训练样本主动或被动的处理方式，可以将分类机制分为主动学习机制和被动学习机制。训练样本的学习顺序是主动学习和被动学习在训练学习过程上的主要差别。主动学习的思想认为问题求解的过程需要对假设空间和实例空间同时进行搜索。具体搜索和学习方式就体现在训练样本的选择顺序上。主动学习会从还没有被标注的语料中,选取最具有训练价值,最富有有效信息的训练实例。主动学习是一种基于查询的学习39。主动学习算法包含很多种查询训练样本的方式：基于委员会的查询方法 (committee-based query selection)、基于边缘的

38、查询方法(margin-based query selection)、基于后验概率的查询方法(posterior-probability-based query selection) 等等40。基于委员会的查询方法需要一组分类器，根据分类器的投票结果的不一致程度进行训练样例的查询。其中不一致程度常用投票熵(Vote Entropy)41 和均值差异熵(KL Divergence to Mean) 42来衡量。基于边缘的查询方法有边缘抽样、多层次的不确定抽样和空间重构抽样。本文将使用基于委员会查询方法中的投票熵和差异熵的估量方法，还有基于误差损失的主动贝叶斯网络查询方法。主动学习在各

39、个领域都有相应的研究与应用：自然语言处理领域有组织机构名称识别，文本分类，依存句法分析，信息抽取等等；图像处理领域的视频分类43；网络安全领域的入侵检测识别等等。主动学习的优点如下：一方面，它可以在大规模的未标注语料中帮助用户只标注那些具有训练价值、利于分类器制定边界的样本，提高训练样本的哈尔滨工业大学工学硕士学位论文 - 7- 质量，更符合统计属性，提升分类器的学习和收敛速度；另一方面，通过有效的查询方法，它可以有效地避免冗余样本和噪音样本，减小误差，同时也减少了训练语料集的规模。使用精简的高质量样本来做训练，分类器学习过程的运算复杂程度和运算时间都得以减少，降低系统复杂度。

40、 1.3 相关技术介绍 1.3.1 语法语义资源本课题需要使用语法语义方面的资源来做特征的抽取，以进行问句机器学习算法的处理。语义方面使用知网系统，语法的分词、词性和句法依存分析方面使用 LTP 系统。知网（HowNet）是一个超越语义词典意义上的知识系统44。它的哲学是将其认知世界的基本单位“万物” ，从“部件”和“属性”两个角度加以解读和描述。它主要反映概念之间的关系，以及概念所拥有的属性之间的关系。因此它形成的是一个网状的知识系统，与树状的知识系统不同。其中知网描述了下列的关系：上下位关系，部件-整体关系，属性-宿主关系，同义关系，反义关系，时间-事件关系，事件-角色关

41、系，施事-事件关系等等。知网以义原作为描述词语的基本单位。可以认为义原是最小的意义单位，它是无法再分割的，最基本最原子的单位。知网 HowNet2004 收录了 2612 个义原，使用 KDML 描述语言。其中，知网知识库的每个记录包含 8 条项目内容。其中的一个词条示例如下： NO.=001120 W_C=爱 G_C=V ai4 E_C=好，说话，看电影，吃鱼，买东西，游泳，看书，集邮，学外语，不释手，青菜箩卜各有所， W_E=be fond of G_E=V E_E= DEF=FondOf|喜欢其中 NO.代表记录编号，G_C 表示词性，E_C 进行了举例，G_E 说明英文

42、词的词性，E_E 进行英文举例，DEF 表示概念的定义。 LTP 由哈工大信息检索研究中心研制45，它包含了多种中文信息处理功哈尔滨工业大学工学硕士学位论文 - 8- 能，其中有词法分析系统，命名实体识别系统，中文依存句法分析和语义角色标注等模块。本课题在特征抽取部分使用它的词法分析和句法分析功能。词法分析可获取分词和词性的特征信息。句法分析可以获取词语在句子中的语法成分及它们间的关系。例如句子“交通银行的信用卡都有哪几种啊？”依存句法解析示例如下：示例中包含 DE（的字结构），ATT（定中关系），SBV（主谓关系）等等。 LTP 依存句法关系表如表 1-1 所示：表

43、1-1 依存句法关系表由于课题在抽取特征的过程中，需要较多的主谓关系的词语搭配，因此在研究组的问答语料中抽取了一部分主谓关系的语义信息。其中语料来自于爬虫爬取的百度知道等问答网站。 1.3.2 分类算法介绍本课题将要使用朴素贝叶斯，支持向量机，ID3 决策树，C4.5 决策树等分类算法。简介如下：朴素贝叶斯（Naive Bayes）是一种实用性高，性能好的贝叶斯分类器。它在某些领域内的应用性能堪比决策树和神经网络等学习方法。哈尔滨工业大学工学硕士学位论文 - 9- 在朴素贝叶斯分类器的训练任务中，实例都由属性值的合取来描述，例如 x。一个新实例在训练好的分类器上进行判定，即计算

44、最可能的 vmap 目标值。 12 argmax(|,.) j MAPjn vV vP va aa (1-1) 使用贝叶斯公式进行变换： 12 12 ( ,.|) () argmax ( ,.) j njj MAP vV n P a aav P v v P a aa 12 argmax( ,.|) () j njj vV P a aav P v (1-2) 朴素贝叶斯分类器有一个前提设定：属性之间的取值是相互间条件独立的。样本的联合概率可以拆分为每个独立属性概率的乘积： 12 ( ,.|)(|) njij i p a aavp a v (1-3) 将式(3-3)带入式(3-2)，即可得到：

45、 argmax()(|) j NBjij vV i vP vp a v (1-4) 其中， NB v即为输出的目标值。支持向量机（support vector machine, SVM），是近几年应用越来越多的十分有效的分类方法。它属于有监督的机器学习算法，对于线性和非线性的数据都具有良好的分类性能46。近年来，SVM 在许多领域的研究中得以应用：计算机图像处理，模式识别，生物信息计算和自然语言处理等。在自然语言处理领域中，文本分类，语义消岐和指代消解等问题解决方面都有应用。对于线性分类情况，SVM 可以训练出最优超平面以最大间隔来分开数据。其中二分类的超平面可以将空间分为一半

46、正类，一半负类。多分类最终划分为各个类别相连的类凸包区域。对于非线性分类情况，通过转换可以使用线性的方法来分类，只需将样本映射到高维特征空间即可。在高维空间中只要求内积的运算，其中只需要原空间的函数即可实现。此种方法即为核函数方法。其中核函数内积形式有线性内核，多项式内核，径向基内核和感知器内核等常用类型。核函数也可以自己构造，只需满足泛函相关理论中的 Mercer 条件。决策树分类器是一种常见的基本学习算法之一。它的处理思想是假定哈尔滨工业大学工学硕士学位论文 - 10- 待分类任务是存在等级分层现象的，可以通过一层一层的分解来完成分类。它的应用领域十分广泛，包括树木疾病诊

47、断，评估申请等。 ID3 决策树由 Quinlan 提出，和其他决策树算法一样，它也可以认为是决策树核心算法的改进。决策树是一颗由三个部分组成的树。其中有决策结点，判别分支和代表分类结果的叶子。其中每个决策结点是对一个属性变量的测试，该判别测试将空间分割成不同类别。叶子节点表示分类的结果。一颗建好的决策树在分类时，从根节点到叶节点会形成一条路径，该路径即为分类器的决策过程。最基本的决策树生成办法需要遍历所有可能的决策树空间。ID3 通过使用信息增益的评价方法来衡量最佳的分类属性，缩减搜索空间。 C4.5 算法是 ID3 的改进算法，也由 Quinlan 提出。它解决了 ID3 自

48、身存在的过度拟合数据等问题。C4.5 算法也称为 J48 算法，它在以下几个方面做了改进： 1) 可以处理某些样本的属性缺失问题； 2) 对连续值属性进行了改进； 3) 使用增益比率（gain ratio）而不是信息增益来确定决策树结点，来信息增益解决偏袒多值属性的问题； 4) 对树进行后剪枝，避免过拟合。改进之后，C4.5 产生的决策树规则集合更加合理，有更高的准确率。但是在构造树的过程中，需要将所有数据载入内存，进行多次的扫描排序处理，效率会略低一些。 1.4 本文主要研究内容与组织 1.4.1 本文内容本文研究基于主动学习的语义缺失问句补全，主要包括三方面的内容： (1)

49、上下文相关信息系统的处理流程的设计与语义缺失问句的分类。此部分包含语义缺失问句补全系统的设计，而问句的分类首要进行的第一个步骤。其中包含在语言学方面语义缺失问句的分析和统计，问句类别的划分方法，特征的抽取，对特征选择的评估，使用不同的机器学习算法进行对比实验。 (2) 缺失信息的恢复。提出先行语恢复补全模型，确定先行语候选语的搜索空间。针对不同的问句类别分别使用相应的恢复策略。其中包含特征的抽取，在不同语料集上的实验处理，分析与对比实验结果。哈尔滨工业大学工学硕士学位论文 - 11- (3) 引入主动学习机制来改进性能。在语义缺失问句分类步骤使用主动贝叶斯网络和基于相对熵的委员会方法来实现主动学习算法。在先行语恢复步骤，将用户反馈与主动学习相结合，使用基于投票熵的委员会方法予以实现。 1.4.2 本文的组织第二章介绍上下文相关信息系统的处理流程和语义缺失问句的分类，使用不同的机器学习算法进行实验和对比。第

展开阅读全文