单词类别对概率上下文无关语法句法分析的影响.docx

上传人:rrsccc 文档编号:8921514 上传时间:2021-01-25 格式:DOCX 页数:3 大小:14.88KB
返回 下载 相关 举报
单词类别对概率上下文无关语法句法分析的影响.docx_第1页
第1页 / 共3页
单词类别对概率上下文无关语法句法分析的影响.docx_第2页
第2页 / 共3页
单词类别对概率上下文无关语法句法分析的影响.docx_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《单词类别对概率上下文无关语法句法分析的影响.docx》由会员分享,可在线阅读,更多相关《单词类别对概率上下文无关语法句法分析的影响.docx(3页珍藏版)》请在三一文库上搜索。

1、单词类别对概率上下文无关语法句法分析的影响摘要:本文论述了基于概率上下文无关语法的句法分析原理,用实例说明概率上下文无关语法是消解句子歧义的有力手段。讨论了概率上下文无关语法本身存在的结构依存和词汇依存问题。通过分析基于概率上下文无关语法的句法分析研究的新进展,对进一步的研究提出了一些建议。关键词:单词类别;上下文无关语法;语法分析1 引言任何句子都是按照一定的语法规则组织起来的。计算机理解自然语言需要建立起自己的一套知识体系,如文法规则、符号集、知识库等。由于计算机只能对有限符号集上的有限长度的符号序列进行决定性的计算,构建形式体系,即规定所用的各种符号,规定把符号连成合法序列的句法,规定合

2、法的符号串如何表示特定问题领域的语义,该过程常面临语法结构分析方面的歧义。利用规则与统计结合起来的句法分析方法可以解决计算机理解自然语言过程中存在的一部分歧义问题,比如:词性歧义、生词引起的歧义、并列结构歧义、介词短语的附着对象歧义、代词的指代歧义、句子连词歧义等。歧义的解决无疑可以对进一步的自然语言理解提供强有利的帮助。而概率上下文无关语法是消解句子歧义的有力手段。2 概率上下文无关语法的语法分析概率上下文无关语法是上下文无关语法的一种扩展,一个概率上下文无关语法是一个四元组:PCFG G=(S,Vn,Vt,P)其中Vn是非终结符的集合;Vt是终结符的集合;S是语法的开始符号;P是一组带有概

3、率信息的产生式的集合,每条产生式形如, i是终结符号和非终结符号组成的符号串,P(Ni i)是产生式的概率2,并且概率分布满足概率一致性限制:公式2.1文法中的每条规则的概率,可以用下面的公式估计:公式2.2其中A是一特定规则,是任意结构,(.)表示规则的使用次数。例如计算下面规则中的P(A)SNP VPVPV NPNPNNPNP的NPNPVP的NP在此例中,NP N的概率计算方法如下:规则使用次数的获取最简单的途径是使用句子已得到刨析的语料库,这样的语料库叫做树库3。例如从树库中统计出NPN使用次数为1000,而NPN,NPNP的NP,NPVP的使用次数之和为6000,则可以指派NPN的概率

4、为1/6。在分析句子有歧义情况下,概率上下文无关语法可给句子每个树形图一个概率。概率公式如下:P(T)=p(r(n)nT公式2.3其中n表示非终极符号的结点,r表示由该非终极符号扩充的规则,p表示规则r的概率,T表示树形图,P表示整个树形图的概率。比较不同树形图的概率,合法的句子赋以较大的概率,不合法句子赋以较小的概率,从而进行歧义的消解。例子 sentence=” John sold the fish bones.”SNP VP1.0Vsold1.0VPV NP0.8DTthe0.6VPV NP NP0.2DTmy0.4NPDT N0.5Nbones0.18NPN0.3Nstar0.04NP

5、DT NN0.15Nfish0.18NPNP NP0.05N girl0.5NJohn0.1由于该句子具有二义性,因此得到三棵结构不同的语法树。观察这三棵语法树,具有这三个树形图结构的句子意思完全不同,T1 中的the fish bones为一个名词短语,具有树形图T1 的句子大意为John出售鱼骨头具有树形图T2的句子大意为 John把骨头出售给鱼,具有树形图T1 的句子则把bones分析成鱼的种类或者名字,整句大意为John出售名为骨的鱼。同样的一个英语句子得到了三种不同的分析结果,像T3这样的分析结果是毫无意义的,而采取概率分析法计算各个树形图的概率后,我们得到的句法分析将会是有效的。P

6、(T1)=1.00.30.10.81.00.150.60.180.18=0.000069984P(T2)=1.00.30.10.21.00.50.60.180.30.18=0.000017496P(T3)=1.00.30.10.81.00.050.50.60.180.30.18=0.0000034992比较概率我们有P(T1)P(T2)P(T3),因此句子sentence=” John sold the fish bone.”最可能的结构是树形图T1。这个结论恰好与我们的直觉是一致的。该方法也可称消解歧义的“选优法”,形式地说,概率最大的树形图T (S)=maxP(T),即这种歧义消解的实质是

7、:从句子分析所得若干个树形图选出概率最大的那一个作为正确分析结果。概率上下文无关语法是歧义消解的有力手段。3 单词类别引入语法分析概率上下文无关语法在分析句子时有三个假设前提条件:位置无关性假设(子结点的概率与该子结点所直接管辖的字符串在句子中的位置无关)上下文无关性假设(子结点的概率与不受该子结点直接管辖的其他符号串无关)和祖先结点无关性假设(子结点的概率与支配该结点的所有祖先结点的概率无关)。然而自然语言具有创造性,自动学习的语料库难以保证获取的语法规则没有例外,语料库中总会有新的语法现象超过已经确定的语法系统的规定。短语的搭配很大程度上由短语的词汇成分决定4。概率上下文无关语法本身存在着

8、结构依存和词汇依存的问题。下面是动词词汇明显影响使用规则的概率分布例子。Local treecometakethinkwantVPV9.5%2.6%4.6%5.7%VPV NP1.1%32.1%0.2%13.9%VPV PP34.5%3.1%7.1%0.3%VPV SBAR6.6%0.3%73.0%0.2%VPV S2.2%1.3%4.8%70.8%VPV NP S0.1%5.7%0.0%0.3%VPV PRT NP0.3%5.8%0.0%0.0%VPV PRT PP6.1%1.5%0.2%0.0%这些语言事实是对概率上下文无关语法分析句子的巨大挑战。需要解决这个问题最有效的途径是在概率上下文

9、无关语法中引入词汇信息,即采取词汇中心词表示概率上下文无关语法。4 PP-附着判定中心词的确定影响剖析树的分析效率。例如一个名词短语中心词是最主要的名词。如:“the August merchandise trade deficit”中心词就是deficit,如果剖析树某一结点使用了规则SNP VP,那么该结点的中心词就是VP。词汇统计分析一般采用两种统计方式,分别如下:P(rh):中心词给定情况下规则的概率公式3.1P(hf):父亲结点中心词给定情况下,结点中心词的概率公式3.2把公式2.1稍作变换得到词汇化的树形图概率计算方法:P(T)=p(r(n) h(n)* p(h(n) f(n)公式

10、3.3例如在句子“Moscow sent more than 100,000 soldiers into Afghanistan.”中,介词短语(PP)“into Afghanistan”或者附着于名词短语(NP)“more than 100,000 soldiers”,或者附着于动词短语(VP)“sent”(单独的动词也可以看成一个动词短语),这里存在PP-附着问题。在概率上下文无关语法中,这种PP-附着的判定要在这两个规则之间选择:NPNP PP (PP附着于NP)和VPVP PP(PP附着于VP)。这两个规则的概率依赖于训练语料库。在训练语料库中,NP附着和VP附着的统计结果如下: 语料

11、库PP 附着于NPPP附着于VP Switchboard63%37%AP Newswire (13 00 万词)67%33% Wall Street Journal & IBM manuals52%48% 可以看出,在三个训练语料库中,“PP附着于NP”都处于优先地位。根据这样的统计结果,我们应该选择PP附着于NP,也就是选择PP“into Afghanistan”附着于NP“more than 10,000 soldiers”这个结果。但是,在我们上面的句子中,介词短语“into Afghanistan”的正确附着却应该是动词短语VP( sent),这是因为这个VP“sent”往往要

12、求一个表示方向的介词短语PP,而介词短语“into Afghanistan”正好满足了这个要求。概率上下文无关语法显然不能处理这样的词汇依存问题。在引入词汇化信息后,可以通过公式3.1计算PP(into)分别修饰父结点VP( sent)和父结点NP(soldiers)的概率。 同样利用公式3.2和公式3.3可以计算带有中心词规则的概率和整个树形图的概率。引入词汇化信息后,上下文无关语法的句法歧义消除的功能变得更加强大。5 结束语影响自然语言的理解的因素是全方面的综合性因素,目前基于概率上下文无关语法的句法分析研究虽取得一定的成果,但这种句法分析在实际应用中受到很多的限制,因此目前的上下文无关语

13、法有两大方面需要突破:一是考虑如何结合上下文作为语境的提示。很多时候句子所处的语境会影响自然语言理解的方向和深度,句子的上下文所提示的内容就是一种语境,离开了句子所处的语境,孤立地理解自然语言就显得含混或模棱两可,上下文的语境以某种方式引导着自然语言理解的方向。二是按照句法分析和语义分析相结合的原则,采用扩展的上下文无关文法分析句子,句法和语义都是句子分析排歧中不可缺少的,在句法分析时可以将语义手段紧密结合起来共同作用于歧义消解,增强上下文无关语法的削歧能力,从而更高效地实现其句法分析。参考文献:【1】曹日昌.普通心理学M北京:人民教育出版社,1999【2】陈火旺等.程序设计语言编译原理M.北

14、京:国防工业出版社,2000,1【3】 Charniak, E, 1997.Statistic parsing with a context-free grammar and word statistics.In AAAI-97, Menlo Park, AAAI Press.【4】 Feng Zhiwei.Probabilistic Grammar in Natural Language Processing. Journal of Contemporary Linguistics, 2005, No. 2.【5】祝庚。一种自然语言理解语法分析其的算法及实现J.东莞理工学院学报,2006,13(3):2125.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1