计算机与语言学.doc_三一文库31doc.com

资源描述

《计算机与语言学.doc》由会员分享，可在线阅读，更多相关《计算机与语言学.doc（6页珍藏版）》请在三一文库上搜索。

1、计算机与语言学 -计算机语言智能仿生和语言学的思考计算机世界和语言文字应用约我谈谈“计算机与语言学问题”。这个题目实在太大了，决非我的能力所能胜任，更不是这一篇短文所能说清楚的。这里只就跟计算机的言语智能仿生相关的一些问题谈一点个人的看法。一. 一个古老而又现代的理想人与人交际，最方便的工具莫过于口头语言；人与机器打交道，可以通过种种方式，而最便捷、最自由的工具当然也是语言。因此，企望有一天人和机器能够自由对话，乃是人类早就梦寐以求的理想。从“芝麻开门”的古老神话到现今的种种计算机智能系统的研制，无不记载着人类力图实现这一伟大理想的奋斗足迹。现在，我们正处于一个高度信息化的社会，信息的交

2、流是社会生活运作的基础。随着信息社会的发展，语言在信息交流中的地位也显得越来越重要。例如，现代通讯技术发展的一个重要目标，就是要为任何时间、任何地点和任何条件下的自由交际创造条件。这就必然涉及语言智能的机械化、或者说机械的智能化问题，“第五代计算机”的提出，便是二十世纪人类为此而奋斗的一个里程碑。所谓“第五代计算机”，其核心目标就是实现人机自由对话。计算机既要能合成出相当自然的连续话语，又要能自动识别大词汇量的连续语句，还要能理解自然话语和进行自动翻译。这些目标已经成为许多国家、甚至跨国的重点研究项目，吸引着越来越多的来自相关领域的研究和技术人员的参与和关注。从国际上看，由日本发起并操纵的“国

3、际口语处理学术会议”的迅猛发展壮大，便是一个最有力的说明。这个会议从1990年创立，与会者几百人，到1996年在美国费城召开的第四届会议上，与会者已逾千人，论文集重不堪载。此外，历来由美国人控制的“国际语音科学会议”以及后起的由欧洲人操纵的“欧洲言语通讯会议”，也都以口语处理为中心，力图探索人类言语的秘密，开发人类的语言智能。在我们国内，无论是语言学相关的基础理论研究，还是语言信息工程的应用研究，也都将口头言语机制及其计算机仿生作为探索的重点。不但每年都有几个学术会议围绕这个中心讨论，而且还有一支相当规模的队伍不屈不挠地从事着各种智能系统的研制工作。特别是国家“八六三”高技术计划智能计算机主题

4、专家组，早在十多年前，就制定了研制智能机系统的“顶天立地”计划，力争在2000年前，使我国的智能计算机系统具备能以汉语语音、汉字图形和图像与系统进行交际的能力。近来，尤其是信息高速公路及多媒体通讯的发展，对各种口语信息服务提出了越来越高的要求。因此，以研制智能机为目标的口语信息处理已成为当今国际、国内极受重视的领域。二. 言语智能仿生的现状与问题研制“第五代计算机”的口号最早是由日本人提出的。这个令人神往的口号一经提出，便风靡全球，包括我国在内的许多国家，都投入了可观的资金，动员了各方面的力量，力图将这个口号付诸实践。在过去的十几年里，人们的确在这个领域取得了前所未有的成功。包括我国在内的

5、许多国家，都已经研制出了各种各样的合成和识别系统，还有了不同程度的自然语言理解系统和自动翻译系统，其中有些确实还是很了不起的，有些小的系统已经从实验室走向实用。例如，日本京都大学的一个口语对话系统，人可以通过电话直接跟计算机约定工作日程等等，不但使用连续话语，而且不限说话人，同时具备了言语合成、语音识别和一定程度的语言理解及知识处理的能力。又如美国的CMU做了一个供海军陆战队检查水陆两用车时使用的语音识别系统，人在水下检查车辆时，口述检查情况，通过这个系统就能自动记录下来。如此等等，都是十分令人鼓舞的。然而，当回顾当初制定的宏伟计划时，人们不无遗憾地发现，现有的成就毕竟离开原定的目标尚远。现

6、有的一些系统不是音质或自然度差强人意，就是自动生成的能力受限；不是识别率不理想，就是识别方式或条件要受种种限制。即使像上述那些佼佼者，也仅限于较小的系统，处理的对象和范围有限，而且往往不完全实时，或者还具有相当大的误识率，等等。总之，大家还没有看到真正不受任何时间、地点和条件限制的、像人与人交际一样自由的人机(通讯)对话手段。原因当然很多，但是，归根结蒂，最根本的原因还在于人对语言本质的认识跟不上。因为从根本上说，计算机的智能化，不仅要对语言作为交际工具的功能进行模拟，而且要对这种功能得以实现的内在机制进行仿生。只有充分认识人类自身语言智能的运行机制，才能实现真正意义上的计算机仿生。可是，目前

7、人类关于自身语言产生和感知过程的知识还相当贫乏，这正是阻碍我们取得更大进展的知识壁垒。所以，有人说，智能机上不去，主要是语言学拖了后退，此话不是一点没有道理的。不过，我们也不能不看到问题的另一方面。例如，许多系统还不够完善，不可能充分应用人在认识语言方面已有的理论和知识；另外，有些系统由于应用对象的制约，还没有真正在语言学知识的应用方面下功夫。总之，即使就计算机技术本身而言，也不是已经尽善尽美，现有的发展水平恐怕还没有真正到达“只要你能拿出语言知识和规则，我就能处理”的程度。何况，自然语言又是其它许多学科的研究对象。例如，作为思维的载体，它是逻辑学和认知学的研究对象；作为一种特殊的符号体系，它

8、是符号学研究的对象；而作为特殊的信息系统，它又是信息科学研究的对象。所以，我们不可能也不应该指望单独由语言学、或者再加上计算机科学，在可以预见的将来完成这个艰巨的历史使命。那么，我们是不是还要坚持我们的既定目标呢？回答是肯定的。但是，应该认识到，这是一个长远的战略目标，不是三几个五年或十年的努力就能完全达到的。人的认识总是有个过程，当初的设想显然受既存认识的局限，因而低估了任务的难度。不过，十年、二十年下来，人们毕竟从实践中提高了认识，开始调整战斗部署。现在，日本人已经不提“第五代计算机”了，而是把计算机的发展分为三个阶段：从计算机发明到现在为第一阶段，主要靠形式语言、符号处理来运行；从现在起

9、往后的五十年为第二阶段，要作信息处理，要从主要用符号跟计算机打交道逐步过渡到采用语音进行交际；再以后的五十年为第三阶段，到那时候，可能整个都是网络，除了语音，还要有图像，还要有虚拟现实的能力。显然，要研制智能机的目标不但没有变，而且更加明确了，只是现在的提法更加切合实际。三. 挑战与思考不用讳言，面对计算机智能仿生提出的许多问题，语言学一时还拿不出满意的答案。有的甚至还是空白，有的虽然已经有了相当深入的揭示，但由于缺乏系统或合理的归纳，再加上传统描写方法的局限，因而不为工程应用方面所了解，或不便工程上的应用。如果说，直到二十世纪70年代，作为言语工程发展后盾的语言学知识武库尚属从容的话，那

10、么，到了80年代，就已显得力不从心。其实，就在人们陶醉于“第五代计算机”的美好憧憬的同时，言语工程圈内已有先觉者认识到“知识危机”暗礁的存在，大声疾呼“以其说需要第五代计算机，不如说需要第五代语言学家”，可见语言学责任之重大。到了90年代，言语工程已经实实在在地面临知识危机，他们普遍反应，现有的语言学知识不解渴，以至于不得不另觅出路。语言学受到前所未有的冲击与挑战。而且，随着处理对象从实验室语言转向自然口语对话，工程方面对于语言学的要求就不仅限于加强口语语音的研究，随之而来的，还有对于口语语法、语义和语用研究的要求。所以说，研究智能计算机与其说是对计算机科学的考验，不如说是对语言学的挑战。诚

11、然，语言学是个古老的学科，它的发展源远流长。千百年来，尤其是近百年来，人类在这个领域里积累了丰富的知识，取得了辉煌的成就，这是不可抹煞的。甚至可以毫不扩张地说，计算机语言智能模拟能有今天的进展，语言学功不可没。但是，语言学当前的状况是理论落后于实践的需要，这同样也是不可抹煞的残酷的事实。譬如说，为什么连续话语的语音明明如此复杂多变，而我们却能够听辨为一个个清晰的音节？人的耳朵和大脑究竟依靠什么来完成这个使命的？显然，除了语音信息以外，这里还涉及语法、语义和语用等各方面的种种规律。那么，这些规律究竟是怎样的？目前，不用说无法说清楚诸如大脑中音义连接关系之类难于捉摸的秘密，就是对于已经可以“看见”

12、和捉摸的语音变化，也还远远没有真正掌握其中的规律。如此等等，无不说明语言学任重而道远。也许有人会说，语言学又不是专门为计算机仿生服务的，为什么单单以此来衡量语言学的水平？不错，要说服务，语言学的服务对象还广得很呢。然而，研制智能机的重大意义决不仅限于让机器掌握语言智能本身，这个目标所凝聚的也不仅仅是言语工程学的需要，同时也是语言学本身发展的需要，更是浓缩了与语言有关的社会各个方面的需求。众所周知，一个学科的生存与发展，总是跟社会的发展与需要息息相关的，如果你不能对社会的发展作出应有的贡献，势必就没有发展前途。目前，语言学的许多部门所面临的经费拮据、人才匮乏、队伍不兴旺等等不景气现象，难道不正是

13、来自现代化社会的种种冲击吗？难道不应该引起我们的深思吗？在危机与挑战面前，我们都需要冷静地思考一些问题。首先，我认为有必要重新审视一下我们的语言观，看看我们对于自己的研究对象究竟有多少认识。这或许有利于正确估价各自过去的工作，充分认识面临的困难，适当调整战斗的部署，以便最大限度地调动一切积极因素，有计划、有步骤地去实现我们的战略目标。语言是什么？这似乎是个不成问题的问题。语言是一种交际工具，是思维的工具。那么，它究竟是怎样实现这两种工具的职能的？我们不妨提供下面的框图来解剖一下我们的研究和处理对象。从这个图解中我们看到，在人与人的言语交际中，从说话人头脑里的想法与概念变成听话人头脑里的想法

14、与概念，决不只是口耳之间的事情，还要涉及双方复杂的大脑活动。这个过程包括说话人头脑中怎样形成概念，概念怎样以一定的词和句的形式得以组织编码，词和句又怎样转换为相应的语音表象并形成驱动发音器官运动的生物学指令，去驱动发音器官发出声音；同样，在听话人一方，也必然要经历与此相关、但方向相反的转换过程。在这个阶段，语言都是以头脑中的神经生理和心理活动的形式存在的，是语言的内部存在形态。只有到了发音器官运动、产生言语声波并传输到听觉器官的阶段，才出现通常的外部语言形态。由此可见，语言交际不仅是一种社会行为，而且还是一种复杂的生物学行为。我们平时感觉到的种种语言现象，都是这种高级智能活动的外部表现。要真正

15、认识这种智能活动过程，就不能不对作为语言内部形态的各种脑生理和心理事件加以探索。事实上，语言学在这方面早已作过相当深入的探讨。例如，关于语言与思维的关系问题，特别是关于语言与思维同一性的讨论，很有点像“先有鸡还是先有蛋”之类的古老哲学思辨，不能不说已经接触到了语言内部形态的本质，即内部语言究竟怎样作为思维活动的工具和载体而被组织运行(编码或解码)的。但是，由于脑生理学目前发展水平的制约，人们暂时还无法揭开这个大脑黑箱之谜。我们对于语言的内部形态几乎还没有什么成熟的认识。可以说，这是人类认知领域的又一个“古德巴赫猜想”，一个不是短期内就可以攻破的堡垒。由此可见，揭示人类语言智能的本质机制，并对此

16、进行计算机仿生，这是一个“顶天”的战略目标。要实现这个目标，无论是计算机科学还是语言科学，都还有很长很长的路要走。我们这么说，决不是为语言学目前面临的尴尬局面开脱责任，也不是为计算机目前仿生水平的不尽人意寻找借口。我们只是想实事求是地看待过去、立足现在和展望将来。过去，我们基本上是把语言作为一般的人文现象、一般的工具来对待。这就局限了我们的认识，使我们在处理问题时，不是站得不高、看得不远，误把语言的功能当作其本质；就是低估了工作对象的复杂性，提出不切实际的战斗口号，误把长远的战略目标确定为指日可待的战术任务，其结果自然不免失望。所以，正确地认识我们的工作对象语言，不仅对于语言学十分重要，对于计

17、算机科学来说，同样也是不可忽视的。面对“顶天”的战略目标，我们必须通过对外部语言的语音、语法、语义和语用等方面的不断探索，来窥探和揭示这种特殊的生物学行为和社会行为统一体的本质及其实施过程，这是语言学的天职。语言学应当充分吸收和利用相关学科的理论和方法，联合一切科学同盟军的力量，为攻克这个“古德巴赫猜想”堡垒而做出应有的贡献。另一个值得思考的问题是，究竟怎样看待计算机与语言学的关系？首先，从计算机仿生的角度看，无论是过去取得的成就，还是现在面临的问题，都跟语言学的总体发展水平息息相关。目前，言语工程界觉得语言学指靠无望，只得另辟蹊径，语料库的大规模应用和迅速发展，便是为抵挡这个危机而采取的

18、颇具革命性的措施。而且，当语言学为认识一些复杂的语言现象而苦苦探索的时候，言语工程部门已经依靠计算机对语料库的自学习，解决了不少实际问题。但是，这并不能说明计算机语言智能仿生的真正突破可以离开语言学的理论基础。事实上，截至目前为止，自然语言处理的一切进展、其中包括语料库的方法，都是跟语言学的基础理论分不开的，而当前面临的“知识壁垒”危机，则是从另一个侧面说明了这一点。所以，国内外不少有识之士早已意识到，利用语料库统计的方法毕竟有它的局限性。计算机再高明，终究还是一种机械。依靠它，固然可以迅速地从大规模的语料中获取丰富的语言知识，解决具体系统的一些具体问题，但却不可能告诉你它是怎么理解的，不可能

19、告诉你这一切究竟是怎么回事。因此，归根结蒂，理性的探索还是不可或缺的。尽管这方面的研究可能看不到立竿见影的效果，但这是百年大计，决不能有任何松懈。目前，在这方面，无论是队伍的建设，还是资金的投入，都有待于进一步加强。其次，再来看看语言学。如前所述，语言学现在处于一种相当被动的局面。这种状况固然受制于相应的认知科学的发展水平，但也不可否认，目前主要还在于自身理论和方法的局限性。语言学亟待进一步现代化。而计算机智能仿生所提出的一系列新课题和新的需求，一方面可以启发我们从新的视角去思考和探索，这必将深化语言学的理论认识；另一方面，通过计算机改造利用现有语言学理论知识，也可促进语言描写的形式化。应该看

20、到，计算机科学的发展，不但为语言学提供了现代化的研究手段，而且大大拓宽了语言学的视野，计算机智能仿生所提出的一系列崭新的课题，也为语言学的发展提供了前所未有的大好机遇。现在的问题是，语言学如何把握好这个机遇，努力发展自己，力争再现辉煌。总之，来自言语工程需求的挑战所反映的，不仅仅是个理论与应用、服务与被服务之间的关系，而是语言学和计算机科学两者之间彼此关联、相互促进的问题。语言学与计算机言语智能仿生，有着共同的研究和处理对象以及共同的奋斗目标揭示人类言语智能的秘密，延展和开发人类言语智能的功能。这是一种天然的伙伴关系。这种关系，不仅体现在语言学对计算机仿生的支持，同样也表现为计算机科学对语言

21、学发展的促进和支持。两者应当更加密切地结合起来。例如，就目前的情况而言，语料库的建设就是一个很好的接合部。如今，面对言语工程的需要，尽管语言学的武库并不充裕，但仍然具有相当的开发余地。关键是怎样去开发利用，这需要语言学界和计算机工程界相互配合，共同探讨。一方面，语料库本质上是一种知识库或规则库，如果在建设语料库的时候，有意识地以已知的语言学理论为指导，就可以增加库的知识含量，同时，也便于计算机通过自学习去发现和利用某些未知的东西，以弥补现有理性认识的不足；另一方面，通过对语料库进行加工标注，不但有利于对现有理论知识的充分开发应用，而且可以把传统的语言描写方式转换为便于机器识读的表示方式，这也必将加速语言学的精密化和科学化进程。可以肯定，计算机与语言学的充分结合，必将促成言语智能仿生的重大突破，也必将极大地推动这两个学科本身的发展。（原载计算机世界1998年月23日D3。）

展开阅读全文