王晓博-大数据场景下主题检索应用.pdf

上传人:yyf 文档编号:3334527 上传时间:2019-08-13 格式:PDF 页数:40 大小:2.57MB
返回 下载 相关 举报
王晓博-大数据场景下主题检索应用.pdf_第1页
第1页 / 共40页
王晓博-大数据场景下主题检索应用.pdf_第2页
第2页 / 共40页
王晓博-大数据场景下主题检索应用.pdf_第3页
第3页 / 共40页
王晓博-大数据场景下主题检索应用.pdf_第4页
第4页 / 共40页
王晓博-大数据场景下主题检索应用.pdf_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《王晓博-大数据场景下主题检索应用.pdf》由会员分享,可在线阅读,更多相关《王晓博-大数据场景下主题检索应用.pdf(40页珍藏版)》请在三一文库上搜索。

1、搜狗精准广告研发部 王晓博 Topic Model在企业的实际场景中如果遇到亿级数 据该如何处理?如何利用有限的计算集群资源处理 超大的文集,我们将围绕这一难题向大家介绍LDA 主题模型训练系统以及它在线上预测时需要面对的 问题和解决办法。 PLSI:潜在语义检索 LDA:Latent Dirichlet Allocation MPI:基于消息通讯的分布式计算平台 Perplexity:混杂度,常用于度量主题模型训练的 效果 双工通信:同时收取和发送数据 主题检索模型理论基础 大数据场景下的挑战 构建一个高效的训练系统 模型在商业广告检索中的应用 LDA的提出 LDALDA与与PLSAPLSA

2、同属同属topic modeltopic model,其目标,其目标 是相同的。是相同的。 问题提出:如何在语义层面对文本集问题提出:如何在语义层面对文本集 (离散数据集)进行建模。(离散数据集)进行建模。 向量空间模型是一个开创性的概念: 优点:文档可以被表示成一个实数向量; 不同长度的文档都能够被表示成定长的数列; 引入与向量相关的计算方法。 问题:文档被映射在词空间,向量维度太高; 理解能力弱,对语义分析的支持不强。 潜在语义索引: 首先被充当一种降维技术,对doc-word矩阵进行SVD, 提取最能反映向量间差异的线性子空间。 进而被证明能够抓取到基本的语义信息,例如同义、 一词多义。

3、 缺陷:所谓的“抓取语义信息”不够直接,降维的意 义更明显;时间和空间复杂度太大。 引入了潜在主题的概念 极大程度的降维,并能 够发掘有价值的语义信 息。 理论理论缺陷:没有对应于P(z|d)的生成概率模型,理论 上不完整。(LDA补足了这个缺陷) HowHow? 先验 Dirichlet 参数 P(z|d) P(w|z) 模型的优势 参数少,overfitting风险小,共有k x |V| + k个参 数 p(z|d)定义为产生式模型 训练集合开放,对于新文档和新词处理能力强 topic model研究的热点,在bayes graphical model的框架下优化潜力大 生成文档di的过程

4、中,包含三个问题: 1.1. d di i的表层信息:的表层信息:d di i的规模,即的规模,即d di i中包含多少词实例?中包含多少词实例? 2.2. d di i的语义信息:的语义信息:d di i所反映的内容,即所反映的内容,即d di i的主题分布?的主题分布? 3.3. d di i中每个具体的中每个具体的wordword都是什么?都是什么? 指定组成文档di的词的个数N,N服从泊松分 布,即NPoisson()。 根据Dirichlet先验,为di选择一个主题分布 i i,即 i iDirichlet()。 di topic s P(z|d) 对于N个待定词中的每一个词wn,通

5、过以下步骤确定 wn的值: 1. 根据 i i为wn选择一个主题zn,即将待定词wn指派 给一个主题zn,指派依据为:znMultinomial( i i); 2. 依据多项式概率p(wi | zn, ),为wn指派一个值。 其中,wi属于word集。 只是简单讲下GIBBS采样法,对于变分法和期望传播方法会粗略的介绍 主题检索模型求解方法简介 3维Dirichlet分布 (3维空间中的2维单纯形) p1 + p2 + p3 = 1 p1 , p2 , p3 = 0 | | 1 1 1 ; ) ( ) ( k k k B Dirichlet | | 1 | | 1 () ( ) () k k

6、k k B k = 0.1 k = 1 k = 10 文集W为topic k的联合概率分布 GIBBS用边缘分布进行迭代来逼近联合分布 ( ,|,)(|,) (|)p Z Wp W Zp Z ( ,|,) (|, ,), (,|,) iii ii p Z W p zk ZWzk p ZW Gibbs采用条件边缘分布采样来求解联合分布, 将其转化为一个Markov链,通过构造概率迭 代矩阵来求解 | | 11 (;)1( ;)1 (|, ,) ( (;) 1( ( ;) 1 ii iiwiiz iiVK izit kt n w zn z d p zZW n zk dn t z 大数据场景下的挑战

7、 我们面临的数据集,一亿篇doc,词表一百万 P(w|z)在1w主题下需要40G存储 doc存储需要3200G 如何利用有限的计算节点尽快的完成计算 如何存储下所有的数据 多机计算的场景下如何解决通讯问题 输入文集 分布式文集加 载,分别初始 化词的主题编 号并计算词频 采样器 采样器 采样器 采样器 是否 停止 迭代 多个线程合并 结果矩阵,然 后多机通过MPI reduce操作合并 结果矩阵 。 。 。 结束运算 ,主 控节点输出模 型文件 停 止 迭 代 继 续 迭 代 我们发现n(w|z)参数矩阵是稀疏的,其非0元素占 比远低于1% 数据结构上使用压缩一维数组Judy 细心的拆解迭代

8、公式可以显著缩小计算量 Sampling中按照指定分布抽取新的topic是性能的 热点,这个地方可以做出十倍以上的加速度 训练算法的关键点是计算边缘分布函数 | | 1 (;)1 (|, ,)( ( ;)1) ( ( ;) 1 i i iiw iiiizV it t n w z p zZWn z d n t z | | | 11 | | 1 (;)( ( ;)1)( ;)(1) (|, ,) ( ( ;) 1( ( ;) 1 (1)(1) ( ( ;) 1 ii ii iiiiziiw iiVV itit tt zw V it t n w zn z dn z d p zZW n t zn t

9、z n t z 原方法: 3000topic: 51个节点,平均每轮迭代需要15分钟,总耗时36 个小时 新方法: 1w topic 51个节点,平均每轮迭代需要5.5分钟,总耗时 16.5个小时,内存消耗降低为原来的1/10,网络 通讯数据量也降低为稠密矩阵的1/10 0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 1 9 17 25 33 41 49 57 65 73 81 89 97 105 113 121 129 137 145 矩阵密度矩阵密度 矩阵密度 主要通讯的就是n(w|z)这个矩阵 可以根据局部的文集词表对其进行分布式存储 分两次完

10、成通讯:第一次传元数据;第二次传更新 量 分部成环,全双工通信,提高一倍的传输效率 主要涉及inference部分 在商业广告检索中如何应用 将query中所有的词对应的p(z|w)连加 优点:速度快 缺点:抗噪能力差 0 (|)() N ii i tf pwpzW 按照训练过程中的方法,只是固定p(z|w)矩阵,然 后计算gamma向量,进而获取p(z|d) 根据topic之间的相似度调整赋权,为im-gibbs 固定p(w|z)不变,用em的方法迭代求解p(z|d) 优点:速度比连加慢一些,但效果好很多 缺点:badcase放大 unit bid word rank term topic

11、vector topic vector cosine similarity 匹配相似度, 也可以是内积 rank term topic vector top n topic topic 1 topic 2 topic n unit list 模型的训练和推导过程: PLSA:分布之上无规律,过拟合;对新数据的推导 cheating,用model去fit数据。 LDA:具有完备的训练和推导。 单纯的单纯的LDALDA模型只在小规模数据集的处理上有优势。模型只在小规模数据集的处理上有优势。 对于大规模数据处理而言,对于大规模数据处理而言,LDALDA与与PLSAPLSA效果基本相效果基本相 同。同

12、。 1、对topic间的关联建模,Correlated Topic Model 2、层次化的主题结构,hLDA、HDP 3、主题的迁移规律,Dynamic Topic Model 4、将语法分析和语义分析相结合,将主题分析和结 构分析相结合,HMM-LDA 5、与其它模型的结合 http:/www.cs.princeton.edu/blei/publication s.html 关注我们:t.baidu- 资料下载和详细介绍: InfoQ 策划组织实施 关注我们: “畅想交流争鸣聚会”是百度技术沙龙的宗旨。 百度技术沙龙是由百度与InfoQ中文站定期组织的线下技术交流活动。目 的是让中高端技术人员有一个相对自由的思想交流和交友沟通的的平台。主要分讲师分享和OpenSpace两个关键环节,每期 只关注一个焦点话题。 讲师分享和现场Q&A让大家了解百度和其他知名网站技术支持的先进实践经验,OpenSpace环节是百度技术沙龙主题的升华 和展开,提供一个自由交流的平台。针对当期主题,参与者人人都可以发起话题,展开讨论。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1