语料库的建设和应用.ppt

上传人:本田雅阁 文档编号:3306045 上传时间:2019-08-10 格式:PPT 页数:34 大小:312.04KB
返回 下载 相关 举报
语料库的建设和应用.ppt_第1页
第1页 / 共34页
语料库的建设和应用.ppt_第2页
第2页 / 共34页
语料库的建设和应用.ppt_第3页
第3页 / 共34页
语料库的建设和应用.ppt_第4页
第4页 / 共34页
语料库的建设和应用.ppt_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《语料库的建设和应用.ppt》由会员分享,可在线阅读,更多相关《语料库的建设和应用.ppt(34页珍藏版)》请在三一文库上搜索。

1、语料库的建设和应用,桂诗春,语料库的兴起,发祥地 语料库语言学首先在美国。 60年代开始,美国建立了100万词的Brown语料库(Francis in ten minutes you can produce more illustrations of any point in English grammar than you will find in many millions of words of random text.”Sinclair认为,原因是“the dominant attitude to language in USA over forty years has been co

2、ncerned with language in the mind, and not language on paper, or in the air”. 在英国和欧洲却得到迅猛的发展,ICAME(International Computer Archive of Modern English)在挪威的建立。 美国人开始觉醒, 1999在Michigan召开了”北美语料库语言学讨论会。Simpson和Swales在论文集呼吁要像人造卫星和汽车工业那样迎头赶上。ANC正在积极进行,LDC(Linguistic Data Consortium)收集了许多语料。LDC的口号是No data like

3、 more data。,语料库的兴起,BC (before computers)前: 100多年前, Wilhelm Kaeding 动员了”an army of helpers”(5000人)建立了一个1千1百万词的德语语料库来研究速写 (Hausser 1998)。 18世纪Dr Johnson based 编写英语词典引用了来自著名作家的150,000例句。 Palmer对常用词的研究。 Thorndike的工作(包括编写词典和编写3万常用词表。(1944) Hornby的Advanced Learners Dictionary of Current English.(1948) Wes

4、t的General Service List of English Words(1953) Quick在50年代开始调查英语习惯语用法(SEU)(1968)。,语料库的兴起,BC后: 按照Brown语料库的传统建立了一系列的语料库(澳洲的ACE、新西兰的Wellington Corpus、印度的Kolhapur Corpus,英国的LOB,德国的Frown和Flob,中国的JDEST,等等) 越来越大,如Bank of English,BNC,LSWE,分别比Brown语料库大410倍,100倍和40倍。 专门用途语料库,英国的几大词典出版商都建立自己的语料库和编辑以语料库为基础的辞书,如CO

5、BUILD,OED,LONGMAN。美国的AHI也是建立得较早的语料库。各种口语语料库(如LLC(London-Lund Corpus)、学习者语料库(ICLE,CLEC,HKUST, 等)、CHILDES(The Child Language Exchange System), 包括JDEST, GPEC(Guangzhou Petroleum English Corpus), 都带有一定的专门的目的。 越来越普遍,利用小语料库(从几十万到100万词)来研究ELT。,什么是语料库?,A corpus is a collection of pieces of language text in

6、electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. (Sinclair) Corpus linguistics is the kind of research, carried out in university departments of linguistics, computer science, and re

7、lated subjects (and nowadays often in industrial research labs too), which makes crucial use of language corpora. (G. Sampson & D. McCarthy) 语料库是一种语言学研究生必须掌握的一种方法、技术、手段。它对我们的研究提供一种新的视野,对我们论文写作提供很大的帮助。,什么是语料库?,语料库必须有代表性。不管语料库有多大,它所包含的语料都不过是整个语言的一部分样本。样本太少,代表性就不够,通过样本来了解整体就有误差。这牵涉到选择文本的方式(mode,speech

8、or writing)、类型(type,a book,a journal,etc。)、领域(domain,academic or popular)、语言(language,American,British,etc.)、来源地(location)、时间(date)。 语料库必须是机读(machine-readable)的。 语料库必须是用统计手段分析和整理过的。 语料库最好是向公众开放的。语料是经得起检验的。,语料库的设计和制作,设计和制作语料库必须有明确的目的。如果是通用性的,使用现成的,就足够了。如果有特定的研究目的,而又较多地了解一些特定领域内的语言用法,就可以建立专门用途的语料库。 有了

9、明确的目的以后,就必须考虑这方面的语料范围,以及制定抽样方案。抽样的基本原则是保证样本的代表性(representativeness)和均衡性(balance),语料库的各个部分的权重必须大致相同。,最好的方法随机抽样或分层抽样来取样,例如要选科幻小说,就到图书馆科幻小说的书架上随机抽一本,随机选出有关页面。或是先随机定好一个数目,如有关资料的第一个书架的第二层的第五本书的第50页到第55页。,语料库的设计和制作,又如我们最近想建一个语言学及应用语言学语料库,其目的是(1)供研究生论文写作查阅语言搭配;(2)建立次专业性(sub-technical terms)词汇表。我们定了14个领域,包括

10、理论、心理、社会、应用、语用、神经、认知、语音、语法、语义(词汇)、语料、语体(语篇)、生物语言学和自然语言处理,随机抽样500篇,每篇2000字上下。这也是一个方案。 语源,来自英、美的电子文本、新出的教科书、杂志,主要。书面英语,学术性文体。Internet。,语料库的设计和制作,文本电子化。文本必须是纯文本(.txt)格式,(因为很多通用的软件如TACT,Wordsmith等只接受这种格式),而且经过光学字符识别(OCR)处理。最简便的方法是(1)从网上直接下载,然后进行转换,例如用Word打开,另存为.txt文件。(2)是用扫描器扫描文件,进行识别(一般扫描器都提供识别的软件),存为.

11、txt文件。纯文本格式的文本不能有图表。 文本电子化。所有选择好的样本都必须进行电子化处理,那就是转换成可以机读的电子文本,存放在电脑里备用。在目前的情况下,文本必须是纯文本(.txt)格式。 对电子文件进行标识。语料库标识(corpus annotation)是建立语料库中值得关注的问题。建立语料库的改变目的是从语料中抽取信息,以编制词典、建立语法、了解学习者语言,等等。为了抽取信息,我们需要对文本增加更多的明示的语言信息,例如文本的来源,词类赋码(part-of-speech tagging),等等,例如taken_WN,WN说明taken是过去分词。词类赋码很有必要,例如英语left ,

12、可以是名词(on your left) 、形容词(my left hand)或动词(I left early)。,语料库的设计和制作,语料的标识一般放在尖括号()里面, 词类的赋码则放在词后加_, 如girls_NN$。如the_AT jury_NN said_VBD it_PPS did_DOD find_VB that_CS many_AP of_IN Georgias_NP$ registration_NN and_CC election_NN laws_NNS are_BER outmoded_JJ or_CC inadequate_JJ and_CC often_RB ambiguo

13、us_JJ ._. 对语料库进行统计处理。语料库是一种依托计算机把文本的词频进行整理的技术和方法。频数反映的是一种概率关系。哈佛大学的语言学教授Zipf(1949)提出一条关于词频和它的排列次序的关系的定律Zipf定律:The numerical position of a word in a list is sorted by decreasing frequency (f ). 。,Zipf定律除了高低两端的次序外都较准确。,语料库的设计和制作,一般来说,对语料库的统计整理主要是编制词频排列表(按次序和按字母排列)和词频分布表。 Carroll等人根据AHI所编制成词频手册(1971)对词

14、频排列表,除了频数外,还计算出其D值,U值和SFI值。CLEC也照样给出这几个值。D值为分布指数,从10,指数越大意味着一个词在不同类别的文本中的频数越大,使用面越广。U值指一个词折算成100万词的频数(因为不是所有的语料库都是100万词的),SFI为标准频数指数(Standard Frequency Index),表示词型和词次的关系,根据U值算出。90表示一个词在10词次、80表示100词次、70表示100040表示100万词次中出现一次。,语料库的设计和制作,建立语料库需要的技术条件 硬件:计算机(台式、笔记本)、Pentium4以上,内存5201GB,硬盘120GB以上;扫描仪,最好是

15、扫描文本专用的。 软件:Wordsmith,TACT,Concodancer;Abbyy FineReader 8.0;Adobe Acrobat; Microsoft Word,Excel. 联网,Google搜索。,表4 词频排列表,50,000词中出现一次,SFI=50,100,000词中出现一次,语料库的应用,根据Leech(1998)的说法,可以有下列几个方面: 和本族语使用者比较,目标语学习者有哪些语言特征是明显地超用(overuse)和少用(underuse)的? 学习者的目标语行为在多大程度上受到他们的母语的影响(负面转移)? 他们在哪些领域不能够充分利用目标语的表达资源,而采

16、取了“回避策略”? 他们在语言运用的哪些方面达到接近本族语水平?在哪些方面仍然处于非本族语的水平? A国的学习者的非本族语的语言运用有哪些重要方面(按频数的次序)蒙受损失,需要帮助?,语料库的应用,中国英语学习者的英语超用和少用词的情况。Wordsmith的另一个子程序是“关键词”(keywords), 它可以把一个语料库和另一个参照语料库比较时,它在文本中出现的频数概率小于或等于用户所规定的p值。经过比较后,如果一个词的出现超出所期望的几率,我们把它叫做“正关键词”;少于所期望的几率时,我们称之为“负关键词”。我们把CLEC和Flob两个语料库加以比较,发现两个语料库超用的词和文本的内容有很

17、大的关系,如CLEC的语料大都来自与个人和学校生活有关,所以life, school, college, campus, English, friends, knowledge, we, I, teachers, students。有些超用词则来自命题作文,如water, fresh, health, mortality, fake, society, jobs, money, countries, eat, harm, pollution, births, shortage, river, euthanasia等。,语料库的应用,而Flob的超用词则和英国的政治和社会生活有关,如Britis

18、h, church, European, community, bullet, Labour, UK, England, minister, religious, Christian, tax等。 所以超用词的比较仅可以说明语料的题材不同。但是少用词却可以暴露中国英语学习者的一些问题。例如of, her, had, she, been, was, an, local, his, cent, its, within, Mr., where, by, which, were, might, as, off, between, hed, he等,都是属于前50个关键性最高的少用词。这可以说明:中国英

19、语学习者倾向于少用被动语态(如been,by),过去时态(had,was,were,might),第三人称代词(her, she,his,its,hed,he)和一些wh-词(which,where),而其原因很可能是受汉语的影响:汉语的被动式用得较少,但表达方法却很多,不一定非用“被字句”;汉语表示过去没有形态变化;汉语第三人称在语音上没有差别;汉语的内嵌句较少,关系代词也没有英语用得那么普遍。,语料库的应用,英语的一个特点是习惯用法很多,很多词的搭配是规约性的,没有什么理由可说。这往往成为英语学习者的一个难点。在Wordsmith的concord子程序,可以帮助我们了解一个词的搭配词的情况

20、。例如英语的great,large,big是三个同义词。我们比较了它们在CLEC,Flob和Frown的频数 :,但是在几个NS的语料库里,10个以上的搭配词只有deal,Britain和many。在BNC里harm倒是有29次,折算下来中国学生多用了255倍。,语料库的应用,又如risk, danger, threat, hazard这几个近义词的使用情况也反映了中国学习者的掌握和英美人大不相同:,语料库的应用,中国学生掌握和使用的数量偏少。 中国学生使用这几个近义词,特别是risk和threat,明显地少于操本族语者,而使用danger却又略多于他们。 中国学生使用risk的搭配非常有限(

21、take the risk8, at the risk3, to risk6),较多样:英美人比较多样,avoid/carry/ eliminate/ignore/crease/involve/give/reduce/run/ worth/lack of the risk; 它还可以有一个修饰词,如conventional/maximum/no/ some/ suicide/ own/ unnecessary/hazard/ with/ without risk, 最多用的修饰词是high,但中国学生都不会用。,语料库的应用,中国学生之所以多用danger是因为不懂得还有risk,threat

22、等其他近义词,而且把danger当作是“危险”、“风险”、“威胁”的上义词,在写作中出现下面的失误: Fake furniture brings danger to people. (It is risky buying fake furniture.) Water is facing the danger of shortage. (We are facing the threat of water shortage.),语料库的应用,搭配是中国学生的难点,在写作时往往会碰到一些搭配不好解决。例如utterly在词典的释义里是“完全、彻底”的意思,但是Louw发现在COBUILD 语料库里发

23、现了99个搭配,而在大多数情况下,都是用于“坏”的意义。,1 nothing. The farmers were utterly against the union and utterl 2 rly against the Union and utterly against the Wages Board. Now 3 f it everything seemed so utterly altered that I felt illogica 4 but Io has no wind and is utterly arid. Most likely this erosi 5 rst thing

24、 wed ever seen, utterly blackened now, the skin on t 6 in his diary: “Whitehall utterly burned to the ground, nothin 7 In my experience it gets utterly confused. And there are seve 8 s ambitious wife, are not utterly convincing. Miguel Fernandes 9 nfident, well-trained and utterly dedicated to the i

25、dea of win 10 feet. Its hopes appeared utterly demolished in 1956, when Mr 11 outwards from the centre utterly destroying everything in its 12 the island the view was utterly different. The filmy enchant 13 I think it would be an utterly different kind of programme 14 probabilitys sake, not utterly

26、disconfirming the tale of a,又如根据Sinclair的调查, regime在67%的情况下都是用于西方社会看成是”坏的”搭配.,语料库的应用,有些语言搭配可以通过语料库来寻找更多的说法,使文章变得多采多姿。例如论文中免不了要谈到theory。通过检索,我们可以找到一些搭配:need, assume, construct, put forward, support, believe, lead to, promote, discuss, revise, based on.a(the) theory; 或a (the) theory faces, behind, evo

27、lved, depends on, emerged from, proposes, holds, related to, grew out of, concerned, serves.,语料库的应用,语料库还可以揭示一些常用的句型,例如: A matter of ing:a matter of developing skills;a matter of learning;a matter of becoming able Be spent的被动式后面跟着“ing”:whose early career was spent teaching;many valuable minutes were

28、spent recounting the story; much of my time is spent making copious notes The naked eye(肉眼)在英语里使用在有限制的、但又未固定的语境,例如:easily visible to the naked eye。必须有冠词,而且在一个子句后面,前面有to,有时则是 with。 从lexical phrase到lexicogrammar、formulaic language,pattern grammar。从data-based approach到data-driven approach。要害的问题是The dat

29、a is not annotated in terms of existing theories。,语料库的应用,通过对学习者的语料进行语法赋码找出不同水平的学习者的语言问题。中国英语学习者的书面英语的特点是“写话”,但和真正的英语口语又有所区别,主要是没有明显的语体特征,口语化的程度并不高。其特征是:所使用的词汇量不大、词不达意、句法结构失误较多、功能词掌握得不全面(初级学习者尤为突出)。中国英语学习者书面语体往往受到汉语书面语的影响,这表现在下面几个方面的少用词;但总的趋势是随着中国英语学习者的水平的提高,而逐步靠近本族语使用者: 第三人称he、him、his、she、her、its、se

30、lf,因为现代汉语的口语中的第三人称缺乏性的差异,所以在交际中倾向于重复先行词。 表示被动式的been和by,因为现代汉语表示被动的方式很多,往往不需要使用被动句。 现在和过去分词。因为汉语中没有这种形态变化,中国学习者感到难以掌握。 wh-词,如where、which、whose、whom,因为汉语中没有那么多的关系分句。 介词of、at和off,因为它们和汉语的小品词不同,语法意义多于词汇意义,中国学习者难以掌握。 不定冠词a(n),汉语中没有这样的用法,中国学习者CLL往往容易忽略。,谢谢!欢迎多提意见!,你愿意再听多一点关于CLEC的情况吗? 还是你想更具体地了解怎样利用现有的手段建造一个语料库吗?,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1