吴一男:网易通用搜索优化之道.pdf

上传人:小小飞 文档编号:3332728 上传时间:2019-08-13 格式:PDF 页数:47 大小:1.62MB
返回 下载 相关 举报
吴一男:网易通用搜索优化之道.pdf_第1页
第1页 / 共47页
吴一男:网易通用搜索优化之道.pdf_第2页
第2页 / 共47页
吴一男:网易通用搜索优化之道.pdf_第3页
第3页 / 共47页
吴一男:网易通用搜索优化之道.pdf_第4页
第4页 / 共47页
吴一男:网易通用搜索优化之道.pdf_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《吴一男:网易通用搜索优化之道.pdf》由会员分享,可在线阅读,更多相关《吴一男:网易通用搜索优化之道.pdf(47页珍藏版)》请在三一文库上搜索。

1、网易通用搜索优化之道 系统实现与数据分析 网易杭州研究院 吴一男 2013/08 大纲 介绍 通用搜索系统 搜索的云服务化 搜索数据分析与应用 产品应用 未来发展 发展过程 业务,效果,应用 系统,功能,性能 易用,资源 产品需求 产品价值 介绍:背景 背景与需求 众多产品的搜索需求 搜索引擎产品 vs. 面向产品的搜索服务 通用搜索,定制搜索,搜索优化 相关产品 开源产品:Solr/SolrCloud, ElasticSearch, IndexTank, Sensei 云搜索:Amazon CloudSearch,阿里云搜索 通用搜索:淘宝TSearcher 介绍:实现 通用搜索系统(NDI

2、R) 搜索云服务化(NCS) 搜索数据分析与应用 通用搜索系统 系统架构 主要模块 整合与管理 通用搜索系统:架构 通用搜索系统:模块 索引/检索引擎:Lucene 实时索引:Zoie 分布式系统:分区,镜像,主从,扩容 数据接入:DataStream同步产品数据库 服务接口:HTTP/REST API,Java SDK 配置管理:Zookeeper 定制化:插件化 监控:主机/进程,服务可用,应用状态,日志 通用搜索系统:Zoie实时索引 通用搜索系统:整合 通用搜索系统:配置管理 搜索的云服务化 云搜索架构 主要模块 系统后续改进 搜索的云服务化:目标 面向人员:产品开发者(轻量级运维)

3、使用与运维:简单,低成本 资源利用:弹性,共享,高效 服务质量:高可用,数据可靠性,性能合理,系统稳定 搜索的云服务化:架构 搜索的云服务化:模块 云搜索实现: 通用搜索系统NDIR 云平台资源:云主机,云硬盘,网络 管理服务器 + 管理前端 数据服务接口:兼容 云平台资源: 云主机NVS:弹性计算资源 云硬盘NBS:弹性存储资源 网络:浮劢IP资源 搜索的云服务化:管理界面 系统后续改进 资源分离 计算资源:云主机NVS(高可用) 存储资源:云硬盘NBS + HDFS(数据可靠性) 索引资源:Lucene + HBase(索引独立) 系统后续改进:架构 Index Dispatcher Lo

4、g Queue Index Store (Index) Index Store (Search) Search Dispatcher Lucene Index NVS NBS HBase HDFS index search 搜索数据分析与应用 数据处理流程 主要模块 搜索优化流程 搜索数据分析与应用:数据处理流程 数据预处理 数据存储 数据统计 学习排序查询挖掘数据服务 线上应用 搜索评估数据分析 数据采集 A/B Test 搜索数据分析与应用:模块 数据采集,数据存储,数据预处理,数据统计 搜索评估,数据分析 学习排序,查询日志挖掘,A/B test 数据服务 数据整合与统计 搜索日志数据:

5、搜索,展示,点击 采集:日志 DataStream HDFS 预处理:搜索session分析 统计(MapReduce),查询(Hive) 数据整合:搜索统计 数据分析 搜索效果评估/比较:Precision/MAP/NDCG 搜索数据分布:2/8 vs. 长尾 热门搜索/badcase分析 具体case分析 搜索数据分析:效果评估/比较 搜索数据分析:热门搜索 搜索数据分析:Badcase列表 case分析:搜索/点击数据 基于数据的优化与挖掘 排序优化:学习排序/LTR 日志挖掘:查询纠错,意图识别,相关查询 学习排序 训练数据:搜索日志 查询-结果对 数据标注:CTR score 数据特

6、征:文本相关特征,产品热度特征,点击数据 算法: Pair-wise LTR,线性 /非线性 RankingSVM,RankBoost,GBDT,etc. 评估指标:NDCG,A/B test A/B test 数据服务 搜索数据:搜索词热度,物品点击热度 产品应用 个性化数据:用户搜索/点击偏好 个性化推荐 搜索改进流程 发现问题分析问题改进方案验证效果评估标准 搜索改进流程 建立评估标准:线上点击率,离线评估指标 发现问题:产品反馈,用户反馈,数据分析 分析问题:内容,检索,排序 改进方案:规则,算法,运营/编辑 验证结果:人工判定,离线评估,线上A/B test 用户搜索过程 引导 意图

7、 搜索 表达结果点击转化 质量展示 用户搜索过程 意图:自发,触发 表达:提示,纠错,推荐 结果:检索,排序 点击:展示优化 转化:内容质量 产品应用 Lofter 博客相关产品 云阅读 云课堂 云音乐 相册/摄影 邮箱 网易看游戏 内部反垃圾 推荐应用 产品应用 产品案例:网易云音乐 多端:iPhone/Android,Web,PC 搜索场景:资源分类搜索 问题与改进: 内容:曲库完善 检索:检索字段,分词/检索调整 排序:相似度/热度计算,排序模型优化 查询处理:查询纠错,意图识别 产品形态:混合搜索提示 数据支持:统计,分析,评估,线上验证 效果:搜索点击率提升 网易云音乐:搜索效果提升 网易云音乐:搜索效果调整 产品案例:网易云课堂 场景:分类搜索,混合提示 问题: 内容:质量好,提高数量与覆盖 检索/排序:结果含badcase,提高精度/降低召回 产品形态:搜索结果分类显示,匹配原因不足 数据统计/评估:不足 改进: 整合数据统计评估 产品形态:混合搜索结果,增加高亮摘要 调整检索与排序 网易云课堂:搜索形态调整 未来发展 完善服务化/云平台建设 数据可视化,基于数据驱劢的改进 搜索个性化,与用户数据的结合 加强移劢端搜索应用 扩展应用领域 总结 团队 通用搜索系统/云服务 数据与算法 个性化推荐 数据平台 联系: 谢谢! Q&A

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1