国际儿童口语语料库录写系统的赋码原则初探.docx

上传人:scccc 文档编号:14580836 上传时间:2022-02-09 格式:DOCX 页数:9 大小:21.83KB
返回 下载 相关 举报
国际儿童口语语料库录写系统的赋码原则初探.docx_第1页
第1页 / 共9页
国际儿童口语语料库录写系统的赋码原则初探.docx_第2页
第2页 / 共9页
国际儿童口语语料库录写系统的赋码原则初探.docx_第3页
第3页 / 共9页
国际儿童口语语料库录写系统的赋码原则初探.docx_第4页
第4页 / 共9页
国际儿童口语语料库录写系统的赋码原则初探.docx_第5页
第5页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《国际儿童口语语料库录写系统的赋码原则初探.docx》由会员分享,可在线阅读,更多相关《国际儿童口语语料库录写系统的赋码原则初探.docx(9页珍藏版)》请在三一文库上搜索。

1、国际儿童口语语料库录写系统的赋码原则初探王立非 1 ,刘 斌 21南京大学 ,江苏 南京 210093 ; 2 解放军国际关系学院,江苏 南京210039)摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一,对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库 的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建 立和研究具有借鉴作用和启示意义。关键词:国际儿童口语语料库;英语口语语料;语料库语言学中图分类号: 文献标识码: 文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool12WANG

2、Lifei 1, LIU Bin 2(1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLAInternational Studies University, Nanjing, Jiangsu Prov., 210039, China)Abstract: This paper describes the basic coding and operating principles of CHATf or the CHILDESt alk-bank, a very valuable corpus for studies on spo

3、ken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China.Key words: CHILDES;English spoken corpus ;corpus linguistics1引言 新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现, 国际儿童口语语料库 CHILDES( Child Language Data Exch

4、ange System )就是 众多语料库中的一员, 已有一千项基于这个语料库的研究成果发表。 该语料库由 美国麦克阿瑟基金会资助, 于 1984年开始筹建, 经过近 20 年的建设,已成为目 前世界上最大的儿童口语语料库。 到目前为止, 该语料库已收集了包括英语、 汉 语在 内的 25 种语 言。用 户 可直 接从网上 免费登录、 使用 或下载 ( http:/childes.psy.cmu.edu/CHA T.html ) 语料。 CHILDES语料库由三部分组成,第一部 分是儿童英语口语语料库( DATA-BAS)E,第二部分为文本赋码系统( CHAT),第 三部分为语料分析程序( CL

5、AN),均可在网上免费下载。本文探讨该语料库的录 写系统的文本赋码原则和操作, 目的是对我国建设英语口语语料库提供借鉴与启 示。2录写赋码系统的途径与原则研究口语必须将视频和音频语料转换为文本语料进行分析和研究, 录写费时 费力,(温志军、胡瑰玲, 2001)而 CHAT录写系统提供了一整套赋码符号系统, 经过赋码的口语语料运用计算机可以自动处理和分析。CHAT (codes for the human analysis of transcripts)的全称是“人工录写文本分析赋码系统” ,它是一套复杂但又十分灵活的多级赋码方案,专为计算 机录写自然话语而设计。 该系统提供了一整套用计算机记录

6、人类交际会话的标准 形式。这些交际话语涵盖了日常会话的所有种类。 赋码内容包括基本的话语文本 类型、详尽的发音信息和话语的句法分析信息。 CHILDES语料库中的全部文稿为 CHAT格式,运用 CLAN程序可以对 CHAT文本进行自动分析。21 CHAT系统的赋码方式CHAT对口语语料的赋码采取四种方式。 第一,使用标准美式音标作为统一的 格式记录会话中的词素。可以将“ mightuv ”记录为 /maituv/ 。第二, CHAT允许 在文稿中使用标准国际音标符和变音符。第三, CLAN编辑器可将会话交谈的声 音用数码形式记录下来, 并直接通过 ViaVoice 语音识别软件自动转为文本格式

7、。 这套系统称为“语音 CHAT”。人们可通过安装在计算机上的语音 CHAT识别文本 语料,听到所录制的声音。第四,如果不希望使用上述方式,CHAT还可识别非标准词汇形式,如“ might ( h) ave”,并将它以“ might have”的缩写形式进行 处理。22 CHAT对文本与音频语料的赋码原则CHAT文稿赋码分为三个层级:初级、中级和高级。初级与普通儿童话语分 析采用的文稿赋码系统一样。初级 CHAT赋码系统的要求包括文档格式、发音形 式、文件书写格式和 ASCII 格式等。初级 CHAT文档的形式有一定的标准。这些 标准必须符合 CLAN分析程序指令的要求,否则, CHAT文档不

8、能顺利运行。正确 的 CHAT文本格式如下:1)用英语进行正常赋码时,文档中的每个符号都必须是ASCII符号。2)每行必须以硬回车结束。3)每行的开头必须是 Begin。4)每行的结束必须是 En。d5)必须有 Participants 行。内容为代表参加者的三字码, 如:参加者的名 字、参加者的角色。此行必须紧跟 Begin行。6)以*号开始的行表明实际说过的话。这些被称为主行。每一个主行都只能 记录一句话语。当说话者一次说几句话时,必须分行记录。7)在主行的 * 号之后的三个字母必须大写。然后是冒号和说话内容。8)以 %符号开始的行表示录写者或研究者对背景的注释。 通常这些行包括赋 码和注

9、释,称为“附属”行。9)以%符号开始的附属行后是三个下标字母。如“ phonology ”中的“ pho”, 一个冒号和注释。10)摘要行后接主行和附属行。3CHAT赋码的操作步骤CHAT文稿的赋码主要分为固定行、主行和可变行三部分。31 固定行赋码CHAT赋码文稿总是以固定行开始,提供录写日期、参加者姓名、年龄、交谈 背景等信息。这些信息出现在文本的最开始处,具体格式如下:(XXX表示某某人,凡是有名字的行都用破折号,其它说明行均无破折号,以示区别。遗漏的冒号已加上,全部要对齐。 )姓名行 Name of 年龄行 Age of 生日行 Birth of 赋码者行 Coder: 附属行 Dep

10、endent:教育行 Education of :文件名行 Filename:字体行 Font:组行 Group of 语种行 Language:语言行 Language of 状况行 SES of 性别行 Sex of 原因行 Stim:录写者行 Transcriber:警告行 Warning:有关参加者和背景信息的所有固定行都须以“ ”符号开始。一些行只要求 有符号和行的名称。例如“ Begin”或“ New Episode”。但是大部分行后须 有内容。有内容的行还必须有一个冒号,然后是 1-2 个注释。冒号后必须空出 8 个字符的间隔, 然后输入注释。 注释是为了增加文档行信息的可读性。

11、 冒号前的 材料称为“行名”,如:“Ageo f CHI: ”和“ Date:”都是行名。行名之后的文 本被称为“行内容”,如:“Ageo f CHI: 2; 6.4 ”、“Date: 25-JAN-1983”。“2; 6.14 ”和“25-JAN-1983”都是行内容,统称为“行” 。行末不能有标点符号。在 CHAT中,只有主体确实发出的声音才能用标点符号。这些固定行说明说话者年龄、社会经济地位或出生日期等不变的信息,如: 中产阶级家庭、男性、 2 岁等。这些信息有助于更有效地研究语料。固定行按字 母顺序排列,排列顺序如下:(1)姓名行 Name of :此行说明参加者的名字。(2)年龄行

12、Age of :此行是说话者年龄, 表示用三个字母说明说话者的名字。 CHAT中的年 龄信息精确到日。 这里的年龄指的是被采集语料的儿童及其兄弟姐妹的年龄, 也 可用于其他说话者。 Age行的顺序为年、月、日。如 2;11.7 ,指的是 2 岁,11 个月零 7 天,与一般日期表示方法不同。(3)生日行 Birth of : 此行说明了说话者的出生日期。此行的内容是日 - 月- 年。注意日在前,月排 在第二位。因此 1973年1月23日应写为 23-JAN-1973。在所有日期中,月份应 大写,缩写,如: JAN,FEB类推。例如: Birth of SAR: 23-JUL-1961(4)赋码

13、者行 Coder: 此行说明文件赋码人身份。以备查验,同时也是对赋码者劳动的一种承认。(5)附属行 Dependent: 此行用于列出附属信息。可插入 %Spa等类指令,供编辑器阅读。(6)教育行 Education of : 此行说明说话者的最高教育水平,用 0-20 的整数表示。 12 以后的数字表明 大学教育。如说话者受教育程度是大学三年级,就应以“15”来表示。例如:Education of MOT: 15 。(7)文件名行 Filename:此行是计算机文件的文件名, 为了防止文件重名。 如果已经有了一个 ID行, 就无需再加上此行,因为 ID赋码包括了文件名。(8)字体行 Fon:

14、t此行用于定义文件的预设字体。在 CLAN编辑器中,对 WINDOW系S 统而言, 预设字体为 Win95:Courier New:-13 。(9)小组行 Group of : 此行说明了一组研究对象中以谁为主体,其他人则不重要。(10)语种行 Languag:e此行说明记录数据的语种。(11)语言行 Language of : 此行说明参加者使用的语言。为了能说明交际的基本语言,最好使用能适用 GEM软件(对某段录写语料标记进行深入分析的软件)的 bg和 eg标记。如果 语言转换频繁,有必要在每句话前使用 %语种,如:%lan: 附属行,表明所使用的(12)状况行 SES of :此行说明了

15、该儿童家庭的社会经济状况。 请用标准形容词说明家庭的社会经 济状况,如:贫困、下层、工薪、中产、上层。例: SES of SAR: working(13)性别行 Sex of : 此行说明说话者的性别。(14)原因行 Stim: 此行说明了引起说话的原因。(15)录写者行 Transcriber : 此行说明录写者的姓名。(16)警告行 Warning : 此行就文稿收集和记录中的某些错误向研究者提出警告。如:1)语料记录不精确,无法在分析中使用。 2)语料包含的信息与文本无关, 不适用于分析。 3) 语料未准确记录重复和停顿现象。 4)所记录语料未进行双重检查。 5)文件末成 功运行 CHE

16、CK命令。32 必要行赋码CHAT必要行指令只有 4 个,没有这些行首, CLAN就无法正确运行。格式如 下:开始行 Begin参加者行 Participants身份行 ID:结束行 End(1)开始行 Begin 此行置于文件头,旨在确保材料的完整性。此行无其它内容,不使用冒号。(2)参加者行 Participants :此行位于文件第二行, 说明文件中的所有参加者, 参加者行须包括三个要素: 说话者身份、姓名和角色,例如: Participants: SARS ue_Day Target_Child, CAR Carol Mother 。1)说话者身份 说话者身份通常由三个字母或二个字母加

17、一个数字等组成。可用参加者姓名,如 以下为一段经过必要行赋码后的语料,语法正确,选自 McWhinney (1995) 。BeginParticipants: Ros Ross Child,BRI Brian Father ROS: Why isn t Mommy coming?%com: Mother usually picks Rossup around 4 PM.*BRI: dont worry.*BRI: she ll be here soon .(1)活动行 Activities: 此行说明在某个情景中发生的活动,列出活动内容。如:如果在 Situation 行说的是“准备出去” ,

18、那么 Activities 行就列出一系列行为,如穿外套、整 理课本、说再见。(2)Gem开始行 Bg and Bg: 此行说明开始用 GEM进行分析。如果有一个冒号,后面必须跟一个注释,然 后再跟其它语码。(3)背景行 Bck: CHAT录写说话前的说明或背景信息时,将信息输入在背景行 Bck行中,如: Bck: Rachel was fussing and pointing toward the cabinet where the cookies are stored.*BAC: cookie / cookie(4)注释行 Comment 此行可输入任何注释。 当对某一种发音注释时, 请使

19、用 %com行。如果对一般 材料进行注释, 请使用 Commen行t 。如果该注释适用于整个文件, 请将Comment 行放在第一次发音的固定行前。不要为专门的信息设立新赋码名, 如” Gestation Age”, 最好用Comme行nt表示。如: comment: Gestational Age of MAR is 7 months ;comment: Birth weight of MAR is 6 1bs. 4oz.。(5)日期行 Date: 此行说明会话时间。形式为日-月-年。日期缩写形式同 Birth 行。例:Date: 1-JUL-1995 。(6)Gem结束行 Eg and E

20、g:此行表明 GEM分析命令结束。如果有冒号,其后必须有标签,以及 1 个或更 多赋码。(7)Gem行gROS或*BIL; 或身份如 *CHI 或*MOT。不同的孩子可以用 *CH1,*CH2,*CH3 指代。说话者身份必须保证不重复,计算机将以此辨认文稿主体和其他说话者。 三个字母有时难以区分所有的说话者。例如,儿童名为 Mark(MAR),他母亲名为 Mary(MAR),这时身份就无法判断,必须换身份代码。如: Mary 的说话者身份可 以改为 MO(T 母亲),也可将 Mark 的身份改为 CHI,最好是这样使用 MAR和 MOT: Participants: MAR Mark Targ

21、et_Child, MOT Mary Mother。三个字母赋码的组合可以指说话者和听众。 如*CHI-MOT或*CHI-FAT 儿童在对 母亲或对父亲说话。2)姓名说话者的姓名可以忽略。如果 CLAN程序对身份和角色自动识别。也可以使 用假名。为了让 CLAN正确分析参加者行,像“ Sue Day”这样的多个单词姓名须 以“ Sue_Day”的形式出现。3)角色身份和姓名之后输入角色。 CHECK命令可以提供一些固定的角色, 如:研究 对象儿童、父母亲、兄弟姐妹、祖父母、阿姨叔叔、小伙伴、客人、学生、老师、 调查者、检查者、观察者、摄像者、医生、护士、办事员、主人、身份不明者、 成人、年轻人

22、、非人类和叙述者。如果在这些标准角色中找不到,角色的性质可 放在姓名所处的位置。例如:Participants: TBO Toll_Booth_Operator Adult,AIR Airport_Attendant Adult,NON Computer_Talk Non_Human(3)身份行 ID: 此行旨在标明确认文件系统中的某一个文件。此行的基本形式如下: ID:language/corpus/speaker/age/sex/group/SES/ rote/situation例如: ID:eng/ne20/chi20/lj10.4/m/middle/target_child/ situ

23、ation 。这 里“ group ”栏的信息被忽略,因此第 5和第 6斜杠标记中没有内容。( 4)结束行 End和开始行Begin一样,此行无需冒号, 没有内容,此固定行位于文件末尾, 表示语料内容的完整性。此行可保证复制时文件的开始内容不会被抹掉。CHAT赋码系统对发音和单词也有一系列标注规则:1)发音应以发音结束符号结束。2)尽量少用逗号。3)专有名词用大写,句子开头不用大写。4)发音模糊的单词应被记录为 xxx (小写符号)。5)记录不完整或不规范的语音段,用 &标明,如: &guga。6)不完整单词中的不完整部分可用括号表示,如: ( be)cause, (a)bout 。*ROS:

24、 good.End3 3 可变行赋码在 CHAT录写系统中,可变行可与固定行同时出现在文件开始处,也可以位 于文件各部分。 可变行包括在文件中可以改变的信息。 文件如果只记录了一天的 会话内容, Date 行只能出现在文件开头,但如果包含以后几天的内容, Date 行可以再次出现,说明记录的时间。可变行的格式如下:活动行 ActivitiesGem 开始行 Bg and Bg 背景行 Bck 注释行 Comment 日期行 DateGem 结束行 Eg and EgGem 行 g 地点行 Location 新事件行 New Episode 房间布局行 Room Layout 情景行 Situa

25、tion 磁带地点行 Tape Location 时间长度行 Time Duration 时间开始行 Time Start此行为联接 GEM软件的命令行。 Gem指的是以 g开始,以另一个 g结束的语 料。这些标记称为 gem的缩写标记,比 bg和eg更易使用,但须使用 GEM中的 +n 转换符。(8)地点行 Location: 此行包括交际话语发生的城市、州或省和国家。例如: Location: Boston, MA, USA。(9)新事件行 New Episode: 此行说明了打断记录的事件以及发生的新片段。因为没有内容,此行无需冒 号。插入事件结束无须标明,因为 New Episode

26、行包含了一件事的结束和另一 件事的开始。(10)房间布局行 Room Layout:此行对房间和家具布局进行说明。 这对了解实验背景非常有用。 例如:Room Layout: Kitchen; Table in center of room with window on west wall, door to outside on north wall.(11)情景行 Situation:此行说明了会话发生的一般情景。 放在另一个 Situation 行前,对情景进行 标准描述。如:早餐、外出、洗澡、工作、访友、上学、准备出门。例如:Situation: Tim and Bill are pla

27、ying with toys in the hallway.研究者应尽可能地提供有关信息:参加人、房间布局、社会角色、活动、性质、时间、地点等。相关 的文化信息也很重要。(12)磁带位置行 Tape Location:此行说明磁带的特点, A、B 面和长度。如: TapeL ocation : tape 74, side a, 104 。(13)时间长度行 Time Duration :指出录音开始时间和录音时间的长短。 如:TimeD uration: 12:30-13:30 。 此行说明了录音确切时间,各个相关事件发生的时间比较重要。记录在 %tim 附 属行中,接着是 Time Star

28、t 行。(14)开始时间行 Time Start:如果想知道 %tim 行中遗漏的时间, TimeS tart 行可表示绝对时间。如果记 录中出现新的 Time行,时钟会重新计时。例如: Time Start: 12:30 。从儿童口语语料库录写系统的赋码可以看出, 口语语料的赋码比书面语料复 杂,主要因为涉及声音的处理。然而 CHILDES的 CHAT赋码原则十分全面,可以 对任何口语语料进行有效录写赋码,值得我们在建设英语口语语料库时借鉴。参考文献:1 Edwards, J. 1992. Computer methods in child language research: four p

29、rinciples for the use of archived data J. Journal of Child Language. 19, 435-458.2 Gibbon, D., Moor, R., & Winski, R. (Eds.). 1997. Handbook of standards and resources for spoken language systems C. Berlin: Mouton de Gruyter.3 LIPPS Group. 2000. The LIDES Coding Manual: A document for preparing and

30、analyzing language interaction data J. Journal of Bilingualism, 4, whole no. 2.4 MacWhinney, B. 1995. The CHILDES Project: Tools for Analyzing TalkM. 2 nd Edition. Mahwah, NJ: Lawrence Erlbaum Associates.5 Oshima-Takane, Y., & Mac Whinney, B. 1995. Japanese CHATm anual M. Tokyo: Tokyo University Press.6 温志军,胡瑰玲 . 开发利用世界上最大的儿童语料库 -CHILDES J 外语教 学与研究, 2001,(5):374-377*作者感谢美国 B. MacWhinney教授访问南京大学期间的直接指导, 感谢文秋芳教 授和南京大学英语口语研究所以及南京师范大学教育系提供有关资料。作者简介: 1. 王立非 (1962-) 男,南京人,解放军国际关系学院教授,南京大学 博士生,研究方向为应用语言学; 2. 刘斌( 1978- )女,南京人,解放军国际关 系学院研究生,研究方向为应用语言学。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1