《中文分词》ppt课件.ppt

上传人:本田雅阁 文档编号:3513192 上传时间:2019-09-05 格式:PPT 页数:81 大小:5.14MB
返回 下载 相关 举报
《中文分词》ppt课件.ppt_第1页
第1页 / 共81页
《中文分词》ppt课件.ppt_第2页
第2页 / 共81页
《中文分词》ppt课件.ppt_第3页
第3页 / 共81页
《中文分词》ppt课件.ppt_第4页
第4页 / 共81页
《中文分词》ppt课件.ppt_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《《中文分词》ppt课件.ppt》由会员分享,可在线阅读,更多相关《《中文分词》ppt课件.ppt(81页珍藏版)》请在三一文库上搜索。

1、1,http:/ http:/ http:/ http:/ http:/ http:/ http:/www.by-,3.4 中文分词原理,2,【目 录】,什 么 是 中 文 分 词,查 询 处 理,分 词 技 术 分 析,应 用 举 证,分 词 技 术 概 述,1,2,3,4,5,为什么要分词,英文 Knowledge is power 单词之间有空格,很容易进行词语的匹配。,中文的语义与字词的搭配相关,和服务必于三日之后裁制完毕 王府饭店的设施和服务是一流的,杭州市长春药店 杭州市长春药店,中文的语义与字词的搭配相关,后人又有人写: 1、下雨天留客,天留,我不留。 2、下雨天留客,天留我不留

2、。 3、下雨天,留客,天留,我不留。 4、下雨天,留客,天留我,不留。 5、下雨天留客,天留我不?留! 6、下雨天,留客天,留我不留? 7、下雨天,留客天,留我?不留! 8、下雨天留客,天!留我不?留! 9、下雨天,留客!天!留我不留?,唐朝时,一个穷人到他朋友家去玩,这个穷人非常的聪明。又一天,下起了雨,这个朋友想让他快点回去,不好意思说,于是,写了一封信,但没加标点。这个朋友的意思是:下雨天留客,天留人不留。没想到,这位聪明的穷人在信中夹了标点,意思全变了:下雨天,留客天,留人不?留。,6,什么是中文分词,中文分词定义,上海/武警/总队/医院/地址,分词就是将一句话切分成一个个单词的过程.

3、 分词的目的是更加有效、准确的关键词索引。,中文分词概述,什么是分词? 比如句子“内塔尼亚胡说的确实在理”,中文分词概述(Cont.),分词作用 互联网绝大多数应用都需要分词,典型应用实例 汉字处理:拼音输入法、手写识别、简繁转换 信息检索:Google 、Baidu 内容分析:机器翻译、广告推荐、内容监控 语音处理:语音识别、语音合成 ,基于关键词的口碑分析,客户:某知名全国连锁餐饮品牌 需求:自身及竞争对手在互联网上的口碑变化,2019/9/5,2019/9/5,11,Part 2,【接受用户查询后做了哪些事情】, 查询处理 ,12,用户提交字符串小于3个字符,用户提交字符串多于3个字符,

4、提交的中文查询包含英文单词,查询处理,用户查询方式,13,查询处理,小于等于3个字符串,皮肤病,用户查询方式,皮肤病,14,查询处理,用户查询方式,小于等于3个中文汉 字,将直接调取数 据库中索引的词汇,注,15,查询处理,用户提交了不止一个查询串 多于3个字串符,上海皮肤病医院,用户查询方式,上海/皮肤病/医院,上海皮肤病/医院,上海/皮肤病医院,上海皮肤病医院,16,查询处理,用户查询方式,大于等于4个中文 汉字,搜索引擎会 默认将所有字符串 按词分隔开,分成 若干子查询串,注,17,查询处理,提交的中文查询包含英文单词,用户查询方式,Iphone手机,Iphone/手机,Iphone手机

5、,18,查询处理,用户查询方式,当提交的中文查询包 含英文单词时,查询 结果会将英文单词优 先完整展现,即使查 询的单词不存在,也 会当做一个字符处理 ,不会进行拆分,注,中文分词概述(Cont.),分词难点 歧义无处不在 交叉歧义(多种切分交织在一起) 内塔内亚胡说的/确实/在理 组合歧义(不同情况下切分不同) 这个人/手上有痣 我们公司人手 真歧义(几种切分都可以) 乒乓球拍/卖/完了 乒乓球/拍卖/完了,中文分词概述(Cont.),分词难点 新词层出不穷 人名、地名、机构名 奥巴马 表哥 房叔 网名 你是我的谁 旺仔小馒头 公司名、产品名 摩托罗拉 谷歌 爱国者 腾讯 网易 新浪 诺基亚

6、C5 尼康D700,中文分词概述(Cont.),分词难点 普通词与新词互用 高明表演真好(演员)/他的表演很高明 汪洋到深圳检查工作/洞庭湖一片汪洋 普通词与新词交织在一起 克林顿对内塔尼亚胡说 胡锦涛听取龚学平等同志的汇报,中文分词概述(Cont.),分词难点(需要重新处理) 需求多种多样 切分速度:搜索引擎VS单机版语音合成 结果呈现: 切分粒度要求不同:机器翻译VS搜索引擎 分词重点要求不同:语音合成VS搜索引擎 唯一结果VS多结果:语音合成VS搜索引擎 新词敏感度不同:语音合成VS搜索引擎 处理对象:书面文本(规范/非规范)VS口语文本 硬件平台:嵌入式VS单机版VS服务器版,23,P

7、art 3,【都有哪些分词技术】, 分词技术概述 ,24,Part 3,分词技术概述, 目 录 ,基于字典的分词方法,基于统计的分词方法,基于词义分词方法,25,Part 3,基于字典的分词方法,按照一定的策略将待分析的汉字串与一个充分大的 词典中的词条进行匹配,若在词典中找到某个字符 串,则匹配成功,概 念,26,Part 3,基于字典的分词方法,第一页,最后一页,27,正向最大匹配法,反向最大匹配法,最短路径分词法,基于字典的分词方法,常用方法,28,正向最大匹配法,中医治白癜风,中医 / 治 / 白癜风,基于字典的分词方法,正向最大匹配法,29,反向最大匹配法,中医治白癜风,中 / 医治

8、 / 白癜风,基于字典的分词方法,反向最大匹配法,30,最短路径分词法,中医治白癜风,中医/治白癜风,基于字典的分词方法,最短路径分词法,31,基于字典的分词方法,常用方法,采用最短路径分词方 法,因词典中没有 “治白癜风”这个词 组,所以从用户体验 考虑,调取了字典中 意思相近、用户搜索 量大的词“治疗白癜 风”、“治愈白癜风”,注,32,基于统计的分词方法,相邻的字同时出现的次数越多,就越有可能构成一个词,优点,用于系统自动识别新词,缺点,对常用词的识别精度差,例如:你的、我的 、许多的、最好的、之一,常用方法,统计分词,生成式统计分词 判别式统计分词,生成式分词,原理 首先建立学习样本的

9、生成模型,再利用模型对预测结果进行间接推理 两个假设前提 马尔可夫假设 当前状态出现的概率仅同过去有限的历史状态有关,而与其他状态无关。具体到分词任务,就是文本中第i个词出现的概率仅仅依赖于它前面的i-1个词,而与其他词无关。 输出独立性假设 当前状态的输出仅仅取决于当前状态本身,而与其他状态无关。,生成式分词(Cont.),学习 素材,句子,切分 结果,分词 知识库,分词 词典,生成式分词(Cont.),分词过程实例 第一步:全切分,生成式分词(Cont.),第二步:Viterbi动态规划,找到贯穿句子的路径并计算每条路径的概率 P1=P(说|他)*P (的|说)*P(确实|的)*P(在理|

10、确实)*P($End|在理) P2=P(说|他)*P (的确|说)*P(实在|的确)*P(理|实在)*P($End|理) 第三步:选择概率最大的路径 为切分结果,生成式分词(Cont.),优点 在训练语料规模足够大和覆盖领域足够多的情况下,可以获得较高的切分正确率(=95%) 不足 需要很大的训练语料 新词识别能力弱 解码速度相对较慢,统计分词,生成式统计分词 判别式统计分词,判别式分词,原理 在有限样本条件下建立对于预测结果的判别函数,直接对预测结果进行判别,建模无需任何假设。 由字构词的分词理念,将分词问题转化为判别式分类问题 典型算法 Maxent SVM CRF Perceptron

11、优势 能充分利用各种来源的知识 需要较少的训练语料 解码速度更快 新词识别性能好,判别式分词(Cont.),由字构词 把分词问题转化为确定句中每个字在词中位置问题 每个字在词中可能的位置可以分为以下三种 词首B(日本 占领 了 东三省) 词中M(游泳 比赛 菲尔普斯 独占鳌头) 词尾E(中国队 抢占 了 风头) 分词结果形式化 分词结果:毛/B新/M年/E2/B0/M0/M0/M年/E毕/B业/E/于/B东/B北/M大/M学/E 还原:毛新年/2000年/毕业/于/东北大学,判别式分词(Cont.),学习 素材,句子,切分 结果,分词 知识库,判别式分词(Cont.),特征所涉及的语言学知识列

12、表 字的上下文知识 形态词知识:处理重叠词、离合词、前后缀 仿词知识:2000年 成语/惯用语知识 普通词词典知识 歧义知识 新词知识/用户词典 新词的全局化知识,判别式分词(Cont.),优点 理论基础扎实 解码速度快 分词精度高 新词识别能力强 所需学习素材少 弱点 训练速度慢 需要高配置的机器训练,我们即将以昂扬的斗志迎来新的一年。,2019/9/5,依存句法分析标注关系 (共15种) 及含义,2019/9/5,在家禽摊位中,有一个摊位专卖乌骨鸡。,2019/9/5,49,概 念,尚不成熟,试验阶段,通过让计算机模拟人对句子的理解,达 到识别词的效果,基于理解的分词方法,常用方法,50,

13、Part 4,【实例举证】, 分词技术分析 ,51,分词技术分析,百度匹配结果:,皮肤/医院,52,分词技术分析,正向最大匹配:,解小东/北京/华/烟云,反向最大匹配:,解/小/东北/京华烟云,百度实际匹配结果:,解小东/北/京华烟云,解小东/北京,53,分词技术分析,正向最大匹配:,相同/仁/医院/墙,正向最大匹配:,反向最大匹配:,相/同仁/医/院墙,百度实际匹配结果:,相/同仁医院/墙,54,结 论,分词技术分析,百度分词采取了至少两个词典,一个是普通词典,一个是 专用词典(人名、书名、地名、影视剧名等)。而且是专用 词典先切分,然后将剩余的片断交由普通词典来切分。,古巴比伦常,正向最大

14、匹配:古巴比伦/常,反向最大匹配:古巴/比/伦常,百度输出结果: 古巴比伦/常,如果正向和反向结果不一致百度采取最短路径方法,55,分词技术分析,首先查询专用词典(人名,部分地名等),将专有名称切出, 剩下的部分采取双向分词策略,如果两者切分结果相同, 说明没有歧义,直接输出分词结果。如果不一致,则输出 最短路径的那个结果,如果最短路径长度相同,则选择单字 词少的那一组切分结果。如果单字也相同,则选择正向分词 结果,56,分词技术分析,用专用词典切出专有名词 剩下部分进行双向分词,如果单字也相同 取正向匹配结果,如果最短路径相同 取单字词少的那一组切分结果,如果不同,取最短路径结果,如果相同,

15、说明没有歧义,输出结果,57,Part 5,【常见切词效果】, 应用举证 ,58,应用举证,【常见切词效果】,白癜风 上海 白癜风 治疗中心 治疗 白癜风 最好的 医院-上海武警总队医院,A、白癜风 B、上海白癜风 C、上海白癜风治疗 D、上海白癜风治疗中心,E、治疗白癜风最好的医院 F、上海治疗白癜风最好的医院 G、上海白癜风治疗医院 H、上海白癜风医院,59,上海皮肤病医院_长宁区白癜风_闵行牛皮癣_皮肤科医院 武夷路_闸北保德路 黄埔 徐汇 静安 奉贤 宝山 嘉定 杨浦 虹口 松江 金山 普陀 浦东新区 青浦区 最好的皮肤病专科医院,A、上海皮肤病医院 B、上海皮肤科医院 C、上海皮肤病

16、医院 武夷路 D、上海皮肤病专科医院,E、上海皮肤病医院 保德路 F、长宁区白癜风医院 G、长宁区皮肤科医院 H、.,应用举证,【常见切词效果】,60,网页的Title长度根据关键词匹配的数量和热度而定,好比一个页面只做两三 个竞争度强的词,那么Title就应该尽量控制在30字以内,因为关键词拆分得 越多,就意味着需要匹配得越多,而匹配的越多,对排名值的贡献会减弱。 而第二个例子中,之所以Title标题会高于70字,也是根据情况而定,因为70 字中所匹配的关键词除了第一个出现的完全匹配的关键词“上海皮肤病医院” 词以外,其他词相对而言竞争度都非常小,所以切词匹配后能排名的几率仍然 非常高,为什

17、么要完全匹配?,应用举证,【常见切词效果】,61,网站首页Title根据网站定位可以参考此类写法,但文章内页一般一篇文章只做1-2个长尾词,所以切不可将标题写的和例2中一样太过于冗长而影响用户体验,同时网站内页也没有如此高的权重能带起那么多长尾词的排名。文章内页Title一般一句话能匹配出2个长尾词就足够了,常见的是一句话匹配一个词,注:,应用举证,【常见切词效果】,62,注:,脸上长白斑怎么办,小腿有白点,搜索词:,应用举证,【常见切词效果】,63,标题中的关键词不一定非得完全匹配,但关 键词汇一定要在标题中有关联的出现,应用举证,64,完全匹配,包含主要关 键词“皮肤” 、“过敏”的 相关

18、匹配同样 能展现,应用举证,65,主要关键词要放在标题和描述的最前面,关 键词越靠前切词时获得的权重越高,排名越好,应用举证,66,通过梯形图很 容易看出,关 键词出现位置 越靠前排名越好,应用举证,67,关键词出现的频率同样是排名的关键,关键 词出现密度高的网页将会获得好的排名,应用举证,68,A网站比B网站 关键词出现密 度显然要高,所 以略占优势,完全匹配,A,B,提示:如果是在完全匹配的情 况下,关键词密度应该要严格 控制。标题中关键词精确匹 配一次,短语匹配一次为佳, 描述中关键词精确匹配和短语 匹配可以和标题一样穿插使用 出现1-3次。如果完全匹配的 关键词如果放到标题或内容的 最

19、后面,其排名未必见得会高 于那些短语匹配出现密度高的 关键词的排名,应用举证,69,总 结,为什么用户搜索一个词,搜索引擎会罗列出和他相关的结果,?,因为用户搜索的词或是词中某个字符串和搜索引擎词典中的某个字符串匹配成功,那么包含这些字符串的网页将会被罗列出来,基于字典的分词方法,为什么用户搜索一个词,搜索引擎会罗列出和他相关的结果,?,为什么用户搜索一个词,搜索引擎会罗列出和他相关的结果,?,?,70,总 结,为什么一再强调文章的标题要和文章主旨相符,?,除用户体验外因素外,另一个因素是因为通过搜索引擎对标题以及内容的了解,在标题语义和句法的分析上能够更准确,从而避免分词时增加歧义错误率的发

20、生,基于词义的分词方法,71,总 结,为什么一再强调文章中关键词的出现密度,?,能加强搜索引擎对新词的识别能力,更好的识别文章中的主要关键词是什么,同时也降低了将主要关键词进行错误切词的概率,基于统计的分词方法,内容提要,分词概述 分词技术发展 国际分词评测 分词技术总结,分词系统,ICTCLAS 这可是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCL

21、AS全部采用C/C+编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C+、C#、Delphi、Java等主流的开发语言。,分词系统,CC-CEDICT 一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。 IK IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本

22、的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 Paoding Paoding(庖丁解牛分词)基于Java的开源中文分词组件,提供lucene和solr 接口,具有极 高效率和 高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒可准确分词 100万汉字。 采用基于 不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。 能够对未知的词汇进行合理解析。 仅支持Java语言。,分词系统,MMSEG4J MMSEG4J基于Java的开源中文分词组件,提供luc

23、ene和solr 接口: 1mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 2MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。 盘古分词 盘古分词是一个基于.net 平台的开源中文分词组件,提供lucene(.net 版本) 和HubbleDotNet的接口 高效:Core Duo 1.8 GHz 下单线程 分词速度为 390K 字符每秒 准确:盘古分词采用字典和统计结合的分词算法,分词准确率较高。 功能:盘古分词提供中文人名识别,简繁混合分词,多元分词,英文词根化,强制一元分词,词频优先分词,停用词过滤,英文专名提取等一系列功能。,分词技术总结,分词系统,2019/9/5,可以看出,在所测试的四个数据集上,BosonNLP和哈工大语言云都取得了较高的分词准确率,尤其在新闻数据上。,2019/9/5,2019/9/5,哈工大语言云:语言技术平台,2019/9/5,2019/9/5,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1