强大的社会需求推动应用语言学快速发展20091125.ppt

上传人:本田雅阁 文档编号:3483783 上传时间:2019-09-02 格式:PPT 页数:63 大小:231.02KB
返回 下载 相关 举报
强大的社会需求推动应用语言学快速发展20091125.ppt_第1页
第1页 / 共63页
强大的社会需求推动应用语言学快速发展20091125.ppt_第2页
第2页 / 共63页
强大的社会需求推动应用语言学快速发展20091125.ppt_第3页
第3页 / 共63页
强大的社会需求推动应用语言学快速发展20091125.ppt_第4页
第4页 / 共63页
强大的社会需求推动应用语言学快速发展20091125.ppt_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《强大的社会需求推动应用语言学快速发展20091125.ppt》由会员分享,可在线阅读,更多相关《强大的社会需求推动应用语言学快速发展20091125.ppt(63页珍藏版)》请在三一文库上搜索。

1、强大的社会需求 推动应用语言学快速发展,苏新春 2009-11-25,语言学学科体系,应用语言学,理论语言学,语言学,结构语言学,生成语言学,功能语言学,语音学,语法学,词汇学,语义学,社会语言学,文化语言学,语言教学,计算语言学,数理语言学,心理语言学,交际语言学,语言研究,句法学形态学词法学 ,词义学 词源学 语汇学 ,法律语言学,语言,语言观察,病理语言学,地理语言学,实验语音学,人类语言学,语言风格学,人名学,地名学,体态语研究,传播语言学,儿童语言学,规范语言学,对外汉语教学,侦察语言学,广告语言学,汉语语言学,英语语言学,应用语言学的三大活跃学科,语言教学 社会语言学 计算语言学

2、下面就对外汉语教学、计算语言学两个领域各举一例以观其貌。,最近得到来自美国的信息: 2009年11月20-21日召开的外语教学会议有6000人参加。 有许多要学习汉语的大学生,因政府拨款不够而得不到满足。,奥巴马在最近的访华中提出:要派10万人来中国学汉语。,如何评价世界上的汉语热? 为什么这么多美国人要学汉语? 学习什么?(语言?文化?) 先学什么,后学什么? 用什么方法来教学?什么样的方法效果最好? 推广汉语对世界的影响? 推广汉语对中国的影响? 中国影响的硬实力?软实力?,韩国教育部计划2005-2007在全国中小学普遍开设汉语课; 日本从2004上起,中文学校的高中学历首次获得文部科学

3、省的承认; 印尼2004-2007在全国8039所高中全部开设中文课; 泰国开设汉语课的中小学超过400所; 欧美学汉语的人数年增40%,尤以美、俄、英增速最快; 在美国,汉语成为仅次于西班牙语的第二大外语; 在俄罗斯,莫斯科大学等校汉语专业录取比例达201,国家的措施,1.为海外培训汉语教师。 2005年培训人数达50个国家的14393人。 2.派遣汉语教师出国任教。 “国际汉语教师中国志愿者计划”。派出1029人,分布在35个国家 3.拓宽教师来源渠道 4.启动孔子学院计划 已成立300多所,计划成立1000所.,面对汉语热的语言学者的历史使命,汉语“热”中有“冷”,“外热内冷”的局面 “

4、三教”问题突出: 教师:全球汉语教师资源需要充实。 国外的师生比是1:100,按1:20来算,预测2010年全球学汉语的人数将达1亿,这样需要教师达500万,缺400万。目前国内从事对外汉语的教师约6000人,仅有一半获得对外汉语教学资格证;美国仅有汉语教师2000多人,出身语言专业的仅占43% 教材:汉语教材有待改进 教法:汉语教学急需引导,美国侨报:外媒热报: 欧洲学汉语潮如火如荼,中新社24日消息, 法国费加罗报22日报道说,把汉语定为第二外语的初中生2001年还不足4000人,但在20052006学年度突增至12628人。 今年,法国选择汉语的学生人数超过了俄语、葡萄牙语、阿拉伯语和希

5、伯来语,升至第五位。排行前4位依次是英语、西班牙语、德语和意大利语。 位于伦敦东部哈克尼的劳里斯顿小学就是其中的代表。去年,该校面向10岁,11岁的31名儿童开设了10周的汉语课程。 在朝鲜,不论是上班族还是大学生,都利用闲暇时间在学习班学中文。大型书店FNAC内,很容易购买到成人汉语教材,和儿童汉语教材。 http:/ 耶鲁大学校长莱文对记者说,不仅在美国,甚至全球,越来越多的学生开始学习中文,正是这样一个广阔的市场促成了双方的合作。 根据教育部的统计,迄今海外学习中文的人数超过3000万,100个国家的2500多所大学开设了中文课,“汉语热”在全球升温。,计算语言学,对语言文字信息的处理,

6、是当前计算机使用的主要内容之一。 对语言处理的能力,是计算机发展的关键。 计算机对语言的处理已经走完了“字”的阶段, 走过了“词”的大部分阶段,正在进入”句”的阶段. 计算机处理中的标准问题,将决定我国在下一阶段的国际竞争中处于何种地位。,计算语言学,语言信息加工、标注、统计 字处理:字量、字频、字级、字序 词处理:分词、词量、词级、词义、词频、词种 句处理:句式、句型、句长、句子难度 机器翻译:,下面介绍计算机为多义词自动标注的课题研究情况: 词义标注就是用计算机为真实语境中的每个词选择、确定并标示一个适切、对应的义项。,北大计算语言学所对这一研究进行了卓越的研究。 吴云芳、俞士汶信息处理用

7、词语义项区分的原则和方法(2007) 吴云芳词义消歧研究:资源、方法与评测(2009) 。 国内学者在这一领域发表了重要成果的还有黄昌宁、童翔、李涓子、金澎、卢志茂、刘挺、李生、鲁松、白硕、段慧明、郭涛、杨尔弘、张国清、张永奎等先生。详见吴文(2009),我们开始此项研究的缘起: 承担了国家社科基金课题:基于国家语委“通用语料库”之上的汉语义频词库的开发(04BYY009)。,2004年以来经历过的阶段: 建设语料库; 讨论理论模型; 提取规则; 修订义项; 验证库;,“现代汉语多义词词义自动标注系统” Automatic Polysemous Sense Tagging of Modern

8、Chinese 简称WST,WST包括以下七个分库: 语料库 义项库 规则库 语法库 语义库 验证库 义频库,1语料库全称为“现代汉语语料库”。 容量达1.9亿字,包括新闻语料、文学作品、教材、科普作品等。义项标注提取规则的来源库,所有词的使用规则的提取都是根据对该库里词语真实状态进行概括、提炼的结果。,2义项库全称为“现代汉语词义标注用义项库”(Word Sense Base for Automatic Polysemous Sense Tagging of Modern Chinese),简称WSB。 包括词8万余条,义项9万余个。有多义词近9千条。主要吸收了现代汉语词典第3版、第5版的内

9、容,个别参考了汉语大辞典,另增加了2万余条语文性词语及部分义项。义项库是词义标注的来源,也是衡量词义标注效果的主要标准,更是寻找词义特征、确定规则时的依据。,3语义库全称为“现代汉语语义分类库”(A Thesaurus of Modern Chinese),简称TMC。 分一级类9个,二级类62个,三级类516个,四级类2086个,五级类12602个。嵌于其中,起帮助识别义项语义特征的辅助作用。在标注工作中能起到鉴别作用的最低可至3或4级类。,4语法库全称为“现代汉语语法信息词典” ,北大俞先生主持研制。起帮助识别义项语法特征的辅助作用。,5规则库全称为“现代汉语多义词词义搭配知识库(Poly

10、semy Word Sense Collocation Knowledge Base of Modern Chinese)”,简称PCKB。 是确定一个词在具体语境中使用义项的条件与依据。该库保存了对高频、义项在2-5之间、词频在100以上的3700多条双音节多义词所提取的全部使用规则。为每个词语描绘出具体规则,平均每个词9条规则共27000条。,6验证库全称为“现代汉语词义标注验证库”(Word Sense Tagged Corpus of Modern Chinese),简称WSTC。 是人工标注了义项的语料库,主要作为对词义标注效力进行检验,对规则提取、修订、完善起校正、验测作用的实验库

11、。,7义频库全称为“现代汉语多义词词义频级库”(Polysemous Senses Frequency Rank base of Modern Chinese),简称PFRD。 是一个动态数据库。最初根据语感、简单语料调查以及词典义项属性标识给义项进行粗糙义频分级,并在词义标注过程中起帮助作用。最后根据标注结果不断调整、细化,最终形成精细、准确的义频调查结果库。,义项库WSB是词义标注时义项选择的来源。但又不仅仅是如此。WSB对研究中的几乎所有环节都起着重要的制衡作用: 机器识别的对象; 提取规则的依据; 标注的对象; 对语料进行识读的语义单位; 标注义项的应用目的;,义项库在整个系统中的作用

12、: 来源于语料库; 延伸至语法库语义库; 衍生出规则库; 服务于验证库; 最后显示于大规模的真实文本语料库。,根据中文信息处理的目的、条件、需求,在改造、完善传统词典义项的基础上来建构机用义项库成为当务之急。 传统词典义项与机用词典义项有何不同? 收录对象?功能与目的?识别能力?识别手段?,义项来源于何处: 传统词典的义项是否符合机用词义标注的需要?,义项底库为现代汉语词典 多义词12400个; 复音多义词8300个; 双音多义词7278; 词频在100次以上、义项在2-5个之间的双音词3774个;,3774个多义词共有义项8608个。 对3774个多义词中的每个词都人工进行了义项特征的提取工

13、作。 词义标注所有工作的重点与难点都集中于下面两个问题:,一、什么样的义项 义项库是否齐备?有无缺损?是否与真实语料相符? 义项如何划分?根据什么标准? 义项分立是否清晰? 二、如何让计算机能识别 义项有无形式特征? 什么样的特征能为计算机所识别?,目前机用词典的义项内容一般都是借用了面向人的传统词典。这是一种取巧,也是不得已而为之的办法。 由于机用词典与传统词典有着完全不同的服务对象,使用环境、识别条件、实现目标也各不相同,将传统词典简单地套用于机用词典肯定会扞格不入,面临着许多的困难。,在词义标注之路上的先行者已经关注到了机用词典的特征问题,并试图寻找解决的问题。如有的认为传统语文词典义项

14、切分太细,应该调整义项粒度;有的主张以用法代替词义辨析(吴云芳、俞士汶,2007)。,在“第十届汉语词汇语义研讨会”(山东烟台,2009-7-25),有多篇论文都以词义标注为题: 肖航的多义词义项关系对语料库词义标注的影响 王宏显等的构建词汇语义关联度人工标注集 王莉等基于语料库的多义动词标注方法研究 乔剑敏等的面向语义标注一致性检验的汉语词义相似度计算 俞士汶、贾玉祥关于隐喻的报告。 都把问题的焦点指向“义项”。,问题还有: 既有词义颗粒太细的问题,也有词义颗粒太粗,甚至义项缺损的问题; 既有义项包含与被包含问题,还有上下位交叉覆盖的问题; 有语料库有义项库无,也有语料库无义项库有,彼此阙如

15、的问题。,传统词典义项存在问题分析,存在问题的类型:,(一)义项包含 (二)义项交叉 (三)义项边缘模糊 (四)语义连贯 (五)义项过近 (六)义项过窄 (七)义项缺损 (八)罕用义,(一)义项包含,【封面】线装书指书皮里面印着书名和刻书者的名称等的一页。新式装订的书刊指最外面的一层,用厚纸、布、皮等做成。特指新式装订的书刊印着书刊名称等的第一面。也叫封一。,【噪音】音高和音强变化混乱、听起来不谐和的声音。是由发音体不规则的振动而产生的(区别于乐音)。噪声。,(二)义项交叉,【评论】批评或议论:好坏。批评或议论的文章:发表。 学术界/n 当时/TIM 这些/r 公正/a 的/u 评论/vn ,

16、/w 立即/d 遭到/v 了/u 江/ALOC 青/ALOC 一/NUM 伙/q 的/u 反革命/n 围攻/vn 。/w,【带领】在前带头使后面的人跟随着。 领导或指挥(一群人进行集体活动)。,(三)义项边缘模糊,【歇息】休息:病刚好,还是几天吧。住宿;睡觉:洗过澡就上床了。 所以/c 在/p 漫长/a 的/u 旅途/n 当中/f ,/w 我们/r 常常/d 选择/v 这块/r 地方/n 落脚/v 歇息/v 。/w,【亲切】亲近;亲密:他想起延安,象想起家乡一样。形容热情而关心:老师的教导。,(四)语义连续,【出门】(儿)外出:他刚,你等一会儿吧。(儿)离家远行:在外丨后时常接到家里来信。方出

17、嫁。 例:“出门三天家中遭洗劫”齐鲁晚报2007年02月08日,【摩挲】 ms用手轻轻按着并一下一下地移动:衣裳。 msu用手抚摩。,【同居】同在一处居住:父母死后,他和叔父。指夫妻共同生活。也指男女双方没有结婚而共同生活。 大量语例为“男女双方没有结婚而共同生活”,介于两个义项的中间状态。,(五)义项过近,【冰箱】冷藏食物或药品用的器具,里面放冰块,保持低温。电冰箱的简称。 【韵味】声韵所体现的意味:他的唱腔很有。情趣;趣味:这首诗的很浓古塔古树相互映衬,平添了古朴的。,【浴室】有洗澡设备的房间。澡堂。,【救灾】救济受灾的人民:放粮。消除灾害:防洪。 查看/v 灾情/n ,/w 慰问/v 受

18、灾/vn 群众/n ,/w 指导/vn 抗灾/vn 救灾/vn 工作/vn 。/w,(六)义项过窄,【出场】演员登台(表演)。 运动员进运动场(参加表演或竞赛)。 “有人怕闹事,开始退场,剧团的领导|出场,恳求大家安静。”(戴厚英文集流泪的淮河),(七)义项缺损,【字号】 商店的名称:这家商店是什么?指商店:这是一家老这家名气大。 缺“字体的大小”,【装扮】打扮:节日的广场得分外美丽。化装:他算命先生进城侦察敌情。假装:巫婆神仙欺骗人。 缺“打扮出来的模样。” 语例:他这个,哪里是个丁忧的样子。,【庄子】村庄:他是我们里的人。田庄。 删“田庄” 缺“人名,战国时期思想家,道家思想集大成者。”,

19、(八)罕用义,造成极低频义项的有多种原因: 方言义 行业义 临时义,【巴结】趋炎附势,极力奉承:上司。方努力;勤奋:他工作很。 【安排】有条理、分先后地处理(事物);安置(人员):工作丨生活丨他当统计员。规划;改造:重新家乡的山河。,【霸道】我国古代政治哲学中指凭借武力、刑法、权势等进行统治的政策。强横不讲理;蛮横:横行丨这人真,一点理也不讲。 【拔腿】迈步:他答应了一声,就跑了。抽身;脱身:他事情太多,拔不开腿。,【激发】刺激使奋发:群众的积极性。使分子、原子等由能量较低的状态变为能量较高的状态。,以上八种情况,除了“义项缺损”“罕用义”外,其他六种都表现为义项划分的困难,直接造成机器对义项认别的困难。 学术界多将其概括为“义项颗粒过细”、“义项边界模糊”。,对“义项库”WSB调查、评测、调整、修改后的反思: 机用义项库的特点、功能定位; 传统词典的的义项分立、释义、例句中的欠缺,机用词典义项的性质与功能,面对真实语料。凡是真实语料中有的义项理论上都要标注。 处理的是“现代”、“通用”、“书面语”。 方便计算机识别,且适用于大规模语料的处理。 达到一般民众“识别”的需要,而不为“学习者”“辨认”的水平。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1