百度分词原理.ppt

上传人:少林足球 文档编号:4233622 上传时间:2019-10-29 格式:PPT 页数:49 大小:2.56MB
返回 下载 相关 举报
百度分词原理.ppt_第1页
第1页 / 共49页
百度分词原理.ppt_第2页
第2页 / 共49页
百度分词原理.ppt_第3页
第3页 / 共49页
百度分词原理.ppt_第4页
第4页 / 共49页
百度分词原理.ppt_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《百度分词原理.ppt》由会员分享,可在线阅读,更多相关《百度分词原理.ppt(49页珍藏版)》请在三一文库上搜索。

1、1,2,Baidu分词原理,如何获得更多长尾词流量,3,【目 录】,什 么 是 中 文 分 词,查 询 处 理,分 词 技 术 分 析,应 用 举 证,分 词 技 术 概 述,1,2,3,4,5,4,Part 1,【 引 言 】, 什么是中文分词 ,5,什么是中文分词,搜索引擎技术,6,什么是中文分词,搜索引擎技术,Baidu更懂中文,7,什么是中文分词,中文分词定义,上海/武警/总队/医院/地址,中文分词是指将一个汉字序列切分成一个 一个单独的词。,8,Part 2,【百度接受用户查询后做了哪些事情】, 查询处理 ,9,用户提交字符串小于3个字符,用户提交字符串多于3个字符,提交的中文查询包

2、含英文单词,查询处理,用户查询方式,10,查询处理,小于等于3个字符串,皮肤病,用户查询方式,皮肤病,11,查询处理,用户查询方式,小于等于3个中文汉 字,将直接调取数 据库中索引的词汇,注,12,查询处理,用户提交了不止一个查询串 多于3个字串符,上海皮肤病医院,用户查询方式,上海/皮肤病/医院,上海皮肤病/医院,上海/皮肤病医院,上海皮肤病医院,13,查询处理,用户查询方式,大于等于4个中文 汉字,搜索引擎会 默认将所有字符串 按词分隔开,分成 若干子查询串,注,14,查询处理,提交的中文查询包含英文单词,用户查询方式,Iphone手机,Iphone/手机,Iphone手机,15,查询处理

3、,用户查询方式,当提交的中文查询包 含英文单词时,查询 结果会将英文单词优 先完整展现,即使查 询的单词不存在,也 会当做一个字符处理 ,不会进行拆分,注,16,Part 3,【都有哪些分词技术】, 分词技术概述 ,17,Part 3,分词技术概述, 目 录 ,基于字符串匹配的分词方法,基于统计的分词方法,基于词义分词方法,18,Part 3,基于字串符匹配的分词方法,按照一定的策略将待分析的汉字串与一个充分大的 词典中的词条进行匹配,若在词典中找到某个字符 串,则匹配成功,概 念,19,Part 3,基于字串符匹配的分词方法,第一页,第二页,20,正向最大匹配法,反向最大匹配法,最短路径分词

4、法,基于字符串匹配的分词方法,常用方法,21,正向最大匹配法,中医治白癜风,中医 / 治 / 白癜风,基于字符串匹配的分词方法,正向最大匹配法,22,反向最大匹配法,中医治白癜风,中 / 医治 / 白癜风,基于字符串匹配的分词方法,反向最大匹配法,23,最短路径分词法,中医治疗白癜风,中医/治疗白癜风,基于字符串匹配的分词方法,最短路径分词法,24,基于字符串匹配的分词方法,常用方法,采用最短路径分词方 法,因词典中没有 “治白癜风”这个词 组,所以从用户体验 考虑,调取了字典中 意思相近、用户搜索 量大的词“治疗白癜 风”、“治愈白癜风”,注,25,基于统计的分词方法,相邻的字同时出现的次数

5、越多,就越有可能构成一个词,优点,用于系统自动识别新词,缺点,对常用词的识别精度差,例如:你的、我的 、许多的、最好的、之一,常用方法,26,概 念,尚不成熟,试验阶段,通过让计算机模拟人对句子的理解,达 到识别词的效果,基于理解的分词方法,常用方法,27,Part 4,【实例举证】, 分词技术分析 ,28,分词技术分析,百度匹配结果:,皮肤/医院,29,分词技术分析,正向最大匹配:,解小东/北京/华/烟云,反向最大匹配:,解/小/东北/京华烟云,百度实际匹配结果:,解小东/北/京华烟云,解小东/北京,30,分词技术分析,正向最大匹配:,相同/仁/医院/墙,正向最大匹配:,反向最大匹配:,相/

6、同仁/医/院墙,百度实际匹配结果:,相/同仁医院/墙,31,结 论,分词技术分析,百度分词采取了至少两个词典,一个是普通词典,一个是 专用词典(人名、书名、地名、影视剧名等)。而且是专用 词典先切分,然后将剩余的片断交由普通词典来切分。,古巴比伦常,正向最大匹配:古巴比伦/常,反向最大匹配:古巴/比/伦常,百度输出结果: 古巴比伦/常,如果正向和反向结果不一致百度采取最短路径方法,32,分词技术分析,首先查询专用词典(人名,部分地名等),将专有名称切出, 剩下的部分采取双向分词策略,如果两者切分结果相同, 说明没有歧义,直接输出分词结果。如果不一致,则输出 最短路径的那个结果,如果最短路径长度

7、相同,则选择单字 词少的那一组切分结果。如果单字也相同,则选择正向分词 结果,33,分词技术分析,用专用词典切出专有名词 剩下部分进行双向分词,如果单字也相同 取正向匹配结果,如果最短路径相同 取单字词少的那一组切分结果,如果不同,取最短路径结果,如果相同,说明没有歧义,输出结果,34,Part 5,【常见切词效果】, 应用举证 ,35,应用举证,【常见切词效果】,白癜风 上海 白癜风 治疗中心 治疗 白癜风 最好的 医院-上海武警总队医院,A、白癜风 B、上海白癜风 C、上海白癜风治疗 D、上海白癜风治疗中心,E、治疗白癜风最好的医院 F、上海治疗白癜风最好的医院 G、上海白癜风治疗医院 H

8、、上海白癜风医院,36,上海皮肤病医院_长宁区白癜风_闵行牛皮癣_皮肤科医院 武夷路_闸北保德路 黄埔 徐汇 静安 奉贤 宝山 嘉定 杨浦 虹口 松江 金山 普陀 浦东新区 青浦区 最好的皮肤病专科医院,A、上海皮肤病医院 B、上海皮肤科医院 C、上海皮肤病医院 武夷路 D、上海皮肤病专科医院,E、上海皮肤病医院 保德路 F、长宁区白癜风医院 G、长宁区皮肤科医院 H、.,应用举证,【常见切词效果】,37,网页的Title长度根据关键词匹配的数量和热度而定,好比一个页面只做两三 个竞争度强的词,那么Title就应该尽量控制在30字以内,因为关键词拆分得 越多,就意味着需要匹配得越多,而匹配的越

9、多,对排名值的贡献会减弱。 而第二个例子中,之所以Title标题会高于70字,也是根据情况而定,因为70 字中所匹配的关键词除了第一个出现的完全匹配的关键词“上海皮肤病医院” 词以外,其他词相对而言竞争度都非常小,所以切词匹配后能排名的几率仍然 非常高,为什么要完全匹配?,应用举证,【常见切词效果】,38,网站首页Title根据网站定位可以参考此类写法,但文章内页一般一篇文章只做1-2个长尾词,所以切不可将标题写的和例2中一样太过于冗长而影响用户体验,同时网站内页也没有如此高的权重能带起那么多长尾词的排名。文章内页Title一般一句话能匹配出2个长尾词就足够了,常见的是一句话匹配一个词,注:,

10、应用举证,【常见切词效果】,39,注:,脸上长白斑怎么办,小腿有白点,搜索词:,应用举证,【常见切词效果】,40,标题中的关键词不一定非得完全匹配,但关 键词汇一定要在标题中有关联的出现,应用举证,41,完全匹配,包含主要关 键词“皮肤” 、“过敏”的 相关匹配同样 能展现,应用举证,42,主要关键词要放在标题和描述的最前面,关 键词越靠前切词时获得的权重越高,排名越好,应用举证,43,通过梯形图很 容易看出,关 键词出现位置 越靠前排名越好,应用举证,44,关键词出现的频率同样是排名的关键,关键 词出现密度高的网页将会获得好的排名,应用举证,45,A网站比B网站 关键词出现密 度显然要高,所

11、 以略占优势,完全匹配,A,B,提示:如果是在完全匹配的情 况下,关键词密度应该要严格 控制。标题中关键词精确匹 配一次,短语匹配一次为佳, 描述中关键词精确匹配和短语 匹配可以和标题一样穿插使用 出现1-3次。如果完全匹配的 关键词如果放到标题或内容的 最后面,其排名未必见得会高 于那些短语匹配出现密度高的 关键词的排名,应用举证,46,总 结,为什么用户搜索一个词,搜索引擎会罗列出和他相关的结果,?,因为用户搜索的词或是词中某个字符串和搜索引擎词典中的某个字符串匹配成功,那么包含这些字符串的网页将会被罗列出来,基于字串符匹配的分词方法,为什么用户搜索一个词,搜索引擎会罗列出和他相关的结果,?,为什么用户搜索一个词,搜索引擎会罗列出和他相关的结果,?,?,47,总 结,为什么一再强调文章的标题要和文章主旨相符,?,除用户体验外因素外,另一个因素是因为通过搜索引擎对标题以及内容的了解,在标题语义和句法的分析上能够更准确,从而避免分词时增加歧义错误率的发生,基于词义的分词方法,48,总 结,为什么一再强调文章中关键词的出现密度,?,能加强搜索引擎对新词的识别能力,更好的识别文章中的主要关键词是什么,同时也降低了将主要关键词进行错误切词的概率,基于统计的分词方法,Thanks,培训资料 网站编辑SEO操作规范,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1