antconc使用.ppt

上传人:大张伟 文档编号:9289813 上传时间:2021-02-15 格式:PPT 页数:20 大小:119.50KB
返回 下载 相关 举报
antconc使用.ppt_第1页
第1页 / 共20页
antconc使用.ppt_第2页
第2页 / 共20页
antconc使用.ppt_第3页
第3页 / 共20页
antconc使用.ppt_第4页
第4页 / 共20页
antconc使用.ppt_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《antconc使用.ppt》由会员分享,可在线阅读,更多相关《antconc使用.ppt(20页珍藏版)》请在三一文库上搜索。

1、Antconc使用,2010.11.10,免费软件 下载网址:http:/www.antlab.sci.waseda.ac.jp/antconc_index.html 下载版本:antconc3.2.1w 使用指南:http:/www.antlab.sci.waseda.ac.jp/software/README_antconc3.2.1.txt 链接时间:2008年4月13日,英语词频 日本人开发,支持中文。 北大计算所98年1月份人民日报分词语料为例 计算词频,生成词频表; 计算n元组的出现频率; 保存结果 处理中文之间要做个语言设置,否则显示乱码,Antconc包括以下工具: 索引 Co

2、ncordance 索引定位 Concordance Plot 文件查看 File View 词丛Clusters N元模式(部分词丛)N-grams 搭配Collocates 词单Wordlist 关键词单Keyword List,索引工具,使用步骤: 选择文件(一个或多个); 输入检索词; 使用“Search Window size”(检索窗口大小)选择检索词两边显示的字符数; 按“start”开始产生索引行的检索结果,按stop随时停止; 使用“Kwic Sort”(上下文关键词分类)选择一个目标词赖重排索引行,0是检索词,1L、2L是检索词左边第一、第二个单词; 按sort键重新分类排

3、序;,将指针移到其中一行索引行突出的检索词上,指针变成手形工具,点击检索词,可以看到检索词在原文出现的情况。 注意:索引行的总数在“concordance hits”下显示,处理结束时,会“FINISHED”;如果没有产生索引行,则“NO HITS”,并且索引行的窗口不会更新。,检索词可以通过“search term”上面的word选项设定为“词(默认)”或“词的片段”,也可以通过case来选择不区分大小写,也可选择“Regex”使用完整的正则表达式。 ww.regular-expressions.info/quickstart.html 按Advanced键,可以进行更为复杂的搜索。,两个高

4、级搜索项: 定义一组检索词,可以一行一个的输入,也可以直接载入文件中的检索词单,这个特征允许用户使用一大组检索词,但不用每次重复输入; 定义上下文词(context words)和一个上下文的范围,在这个范围中必须出现检索词;,索引定位(concordance plot),进行索引定位的步骤与索引工具的使用方法一样,索引定位工具提供了索引行另一个不同的视角。 每一个文件的所有索引条数都在一个条形码上定位出来,表示文中有检索词的索引行的位置所在。 可以查看哪些文件包含目标检索词,也可以确定检索词在哪儿遇到词丛。 索引条数、文件长度在条形码右侧显示,,文件查看,任何时候,目标文件都可以使用该工具来

5、查看原文。 选择一个要查看的文件; “File View”按钮,start,得到检索词在原文中出现的情况; 使用Hit Location,可以跳到上一个或下一个检索词上; 改变检索词,点击开始键,查看其它检索项,词丛(Clusters),用来生成目标文件检索词周围排列成序的词丛列表的。 词丛既可以按照频率也可以按照词头或词尾排序,也可以按照词丛第一个单词的出现概率排序。 用户可以选择每个词丛的最大或最小长度,以及列出词丛的最小频率。 可以选择检索词是否总出现词丛左边或右边。,使用词丛的操作: 选定主窗口上的clusters按钮,选择合适的排序选项; 按start键,任何时候都可以stop; 点

6、击词丛会产生一组上下文关键词行或者索引行。,N元模式(部分词丛),生成目标文件有序的N元组。 N元模式是单词的N元,大的文件将会产生大量的N元。 排序和词丛工具一样,可以选择N元的最大或最小尺寸,显示N元的最小词频。,生成N元模式的操作: 选择Clusters窗口模式下search term右边的N-grams选项; 选择合适的排列选项; 按开始键,任何时候都可以中止; 点击词汇束会产生一组上下文关键词行。,搭配(collocates)工具,用来生成目标文件的一组有序的搭配列表。 搭配可以按词频,也可以按检索词左边或右边的搭配频率,或者词头或词尾排序。也可以按照检索词和搭配间的统计量来排列。

7、统计量的值测的是检索词和搭配之间的相关程度。 可以选择检索词左右两边的单词跨度,显示搭配的最小频率。,要列一个搭配列表,需要进行的操作: 选择合适的排列选项,及相关设置; 按开始键,任何时候都可以中止; 点击搭配会产生一组上下文关键词行。,词表(word list),生成目标文件的有序的词表。 词表既可以按词频也可以按词头或词尾的顺序排列。 选择合适的排列选项; 按开始键,任何时候都可以中止; 点击单词会产生一组上下文关键词行。,关键词单(Keyword List),可以比较目标文件中的单词和“参照语料库”中的单词生成Keyword List,Keyword List列出的往往是目标文件中频率

8、很高或频率很低的词。 为了列出Keyword list,需进行操作: 选择一组目标文件; 到“Preferences”菜单中,选择“Keyword Preferences”选项; 选择一个统计量估计目标文件单词的关键性;,选择显示的关键词数极限值; 选择是否显示负关键词(show negative keywords),即与参照语料库相比目标语料库中不同寻常的低频词; 选择一个文本文件的参照语料库; 参照语料库的文件列表将在参照语料库选项下的窗口中显示出来; 点击Apply,返回主窗口; 选择生成关键词单的排列选项; 点开始键,可随时中止; 点击关键词会产生一组上下文关键词行。,对各菜单的简单说明,工具预设(Tool Preferences) 每个工具都有一个预设类别,可以对设置做精细修改,允许显示或隐藏不同的结果显示框。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1