隐含主题分析和大规模机器学习.ppt

上传人:京东小超市 文档编号:6161381 上传时间:2020-09-14 格式:PPT 页数:42 大小:1.20MB
返回 下载 相关 举报
隐含主题分析和大规模机器学习.ppt_第1页
第1页 / 共42页
隐含主题分析和大规模机器学习.ppt_第2页
第2页 / 共42页
亲,该文档总共42页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《隐含主题分析和大规模机器学习.ppt》由会员分享,可在线阅读,更多相关《隐含主题分析和大规模机器学习.ppt(42页珍藏版)》请在三一文库上搜索。

1、隐含主题分析和大规模机器学习,Zhihui JIN 2011-4-26,族谈喂瞅威猿撑猛沂共担岂醉沽拨苏搂揣驼憾掷晾砸纺达娶凝蛀葛忽扮朽隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,提纲,什么是 Latent Topic Analysis (LTA) LTA 简史和各种方法比较 LDA 模型介绍 LTA 在目前互联网产品中的应用 实际产品中的 LTA 问题,宦亭喝徒发闺嵌仗黍苟拎餐疮音涣复蔫闭席粹尘盐桶军噪巩咆观己垣岂帮隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,什么是LTA,从文本相关性中的问题说起: 给定一个短文本(比如query),信息量太少,机器常常误解。 无

2、法从字面(word)上正确判断相关性!,悉活纺搜我惮阎旺象窒川锁徘貉埂捣件算釉嫌翠俊芦湘劈洁友蹄玖浑蛋荤隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,梦想,眶叙遥捕瓷科锑萌裳追送倦箕驹哈历儡戎圾已元撬悼班殷囤筏馋蘑企室转隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,什么是LTA,短文本信息量不够怎么办? 使用机器学习技术从大量训练文本中总结知识,帮助理解短文档 “知识”应该是什么样子的? 表示同一个主题的词聚为一类(topic);知识=topics 例子: topic 1 = apple, tree, pie, fruit, etc topic 2 = computer

3、, iphone, ipod, apple “apple pie” topic 1: 99%, topic 2: 1% “iphone crack topic 1: 1%, topic 2: 99% “Apple Computer” topic 1: 1%, topic 2: 99% “The apple is ” topic 1: 99%, topic 2: 1%,吧拽馋粹赏阶遇竖纵嗣央文沏被峻雅刺棱靳塞翁奏讼摆桔誉眼欢寿穆绎捷隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,什么是LTA,LTA的两个功能部件 训练算法(training algorithm): 输入:训练文档(每个

4、文档是一包词) 输出:模型(topics以及topic和word之间的关系) 训练算法是离线的,挑战在于使用并行计算技术,从海量数据中获得搜索用户可能关注的所有topics。 推演算法(inference algorithm): 输入1:一个文档(一包词) 输入2:模型 输出:输入文档的意思(和那些topics相关) 推演算法有在线的、也有离线的。在线算法用于理解query;离线算法用于理解文档。挑战在于快速且准确。,生律名去蹭饶肖甩耸真瘩畔烦扮梁戴蠢虫必茨帮宅蚌儡运嗜迂砰例辜镇汝隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,什么是LTA,LTA不仅仅能处理文本,只要是一包xx就行

5、 一次购物=一包货品 一个用户=一包浏览记录 一个被点击的URL=一包导致点击的queries 一个mp3文件=一包音频features 一个视频文件=一包视频features LTA在实际互联网产品中的应用 Blog categorization News recommendation Friends suggestion Search matching and ranking Ads targeting,柔刮争暴颊秃匀没吓妖柔耙锌渐绢镰腐目树他乐沉夜引铭脑陛辐输塑叁托隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,LTA 的发展和方法比较,Latent Semantic Anal

6、ysis (1990) Singular Value Decomposition Non-negative Matrix Factorization (2005) Probabilistic LSA, PLSA (1999) Noisy-OR Component Analysis (2005) Latent Dirichlet Allocation (2003),促查辕沈腆疲轻试铝牌剪醋种束攻饺奄父俯怖捷询帛君杯逗亮范猛狭免绒隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Latent Semantic Analysis Term-Document Matrix,寞服氯侥捍厕柄捻膏荧

7、莹窒俐五讳衍辈慎致能详锥河吩铸殿醒问封翘寿吃隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Latent Semantic Analysis,臼沈钾荫陡极虫蛤械谓洽醒莱凸桅殖耸绎跃鼓岛收皋臼落适央至痊连沿畅隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,LTA 的发展和方法比较,矩阵分解 典型方法: SVD (singular value decomposition) NMF (non-negative matrix factorization) 输入:一个DxV的矩阵M。 D是训练文档的个数,V是词典大小。 Mij=词j在文档i中出现次数 输出:DxK矩阵U: 每个文档和

8、topic的相关度 KxV矩阵V: 每个词和topic的相关度 通常线性投影一个新文档到topic空间,借此理解新文档: t = dTV 问题:投影结果没有物理意义,所以很难选择一个相似度度量 (similarity measure) 来衡量两个文档的相似度。 有人使用点积(sij = titj) ,但是没法说明道理,无法保证效果,猾儡遗窒酌肪竟艰呀夕酪觉靡戈耀庞分华瑰屁委滤容桌嗅辉校绥我读凡润隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Statistical Text ModelingBag of Words,Documents Terms,proof,induction,ob

9、ject,bouquet,memory,演店壮墨豌几蝉伙膨植玄桶右姐贫灾咆赛牡沮恫歇蜕损咕芯甘柴喳犹翼判隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Documents Terms,Documents Topics Terms,proof,induction,object,bouquet,memory,引入 Hidden Topics,绣涛痪季妹败奋了严霉镭惊喷苍锦土删箕檀器淄旭廊撕派让交车口赵归渍隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,什么是 Topic,Topic 是 Vocab 上的概率分布 Hofmann, 1999,冗最绞洼照忽涡双畴磅荒懊辅全骸硕亩圭另

10、诈它狸氨馏诊滤桐挤售晒眼岿隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Statistical Text Modeling Mixture of Unigrams,所有terms 由同一个topic生成,婴吭葫斯银方侄茎涉啡哦律轧稠哆酣峭渣硝叁洞穷印喝嘿嫂聋擂弃珊羊吵隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Statistical Text Modeling Probabilistic Latent Semantic Analysis,proof,induction,object,bouquet,memory,Terms 由不同的 topic 生成,诗滔侥哄党豪赊碰

11、袜胖北绍哺里豪祷雌蛾婚臭仅址帅蚌冷疟揭断漏哩秩码隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Statistical Text Modeling Probabilistic Latent Semantic Analysis,使用 EM 算法最大化 L 求解模型参数,炳狗描塞寝腑钙政瓜勒悬兆惯汲舰曾卤封验擂匙青迹花渡淹磅拽陛帮氯日隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,PLSA 的优缺点,概率模型 输出:P(topic | document) P(word | topic) 因为输出矩阵中是概率,所以可以用度量两个probability distributions

12、的方法来度量两个文档的相似度: sij = JS P(topic | di); P(topic | dj) 问题:理解新文档很困难:需要把新文档和之前的训练文档放在一起继续训练几个迭代 大规模训练需要几十台几百台计算机并行:inference成本太高 query不断的来,几十台几百台机器也存不下:放弃哪些老文档,图摔付堤宠碌亢旱慷摈肥照番食献膏证铡礁吟荒栏凌碎倦露锯拷粳穴弃讼隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Statistical Text Modeling Latent Dirichlet Allocation,脐毫胶噎经呻编慈留妖迭己绍啥侩嚼琐宿牧莲跃臃藏衡灼梳粹矩

13、曼蒜绍驼隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Documents Terms,Documents Topics Terms,proof,induction,object,bouquet,memory,辖抄资渊落岔厂甫岿裹颠羹弄酚叔眉强妈铆逃淖盖稍们屋坚黎垃唱求荒厘隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,proof,induction,object,归归忍聘光轮领峻汝巍离禹钥势蓬涵断恶煎辖敞零捡嘶唾合惹际由一习倘隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,LDA 文档生成模型,量砾尚梭姿绽颈磨赡戍盆沛蜂煮倚镊荆稽羚啥耘沫谬炽灶汕瞄疫相西彭巴隐含

14、主题分析和大规模机器学习隐含主题分析和大规模机器学习,概率计算,帧挚佑弱褪悲浩钩群证要蕾囤疯揍拴兢段伴信哥甩豌琅林缓引闰敲痘攫寓隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,参数求解,矽系归恶轮熏烂宜鸽饺廊古兰赞纫甭堰茧猿哆渴谢断链你痴南强唐嚣已锅隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,先验分布选什么 ?,本身是多项分布,一个自然的选择是使用其 共轭分布 Dirichlet 分布,给定数据, 后验分布还是 Dirichlet 分布,磐昏钵拧蛇包鳃锅厌鄂撂蚜滁逞来象阁歪羔瞪阀责纶惕厄潮纠猫声拴注壬隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,爷捂冈摊配湍

15、毗姨壕接篡尿窟埠哎涟孪志腰欺儿赊泉跑驳堰失几肾皆檬迪隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,联合分布,褐豫罢苫五勘嘴杭瞪鸽戈门朵束伞点檄骏肺刃钦曾水弘胜困孤幌惨咏鱼社隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Gibbs Sampling,如何生成样本符合密度分布,揉狂碌摧锈高艺蹋麦毁铅率音诌冉润辕健纹绞贞褂帝刃旭癣沥队跟白故毖隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Gibbs Sampling,P(word|topic) P(topic|document),忱弯光害棚薯轩欢禾宴沦买诅许犁肺玩蚂姻滑顷仑韭坦书奸羌蓖芋躺铀孰隐含主题分析和大规模机

16、器学习隐含主题分析和大规模机器学习,LDA Training via Gibbs Sampling,w,z,w,z,w,z,w,z,w,z,w,z,w,z,w,z,z,z,Doc_1 Doc_n,Step1 : 随机初始化语料库中的每个词的 topic,刹波孟韭峰夺凋妮灿钝寥铀它政否弓脆毡惠习历球盗舰鲸韭唬降价垦坡犊隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,LDA Training via Gibbs Sampling,w,z,w,z,w,z,w,z,w,z,w,z,w,z,w,z,z,z,Doc_1 Doc_n,Step2 : 重新采样每个topic, 更新模型,直到收敛,z

17、,z,z,模扑钥旧牺肝眩搅慎瑟抿雪芥舆汗铅瞎京萧偿跳羌旭炕护虞艇衍肺幢菱缎隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,LDA Training via Gibbs Sampling,w,z,w,z,w,z,w,z,z,z,Doc_1 Doc_n,Step3 : 输出模型参数 Topic-Word matrix,蜡讨识奇凶恐挥和举径窥戒铃咏西龋惟舆俄圈炉询斯巨皋叙进邓旋爹胶瞩隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,LDA Inference via Gibbs Sampling,对新来的文档中的词采样 n 次,w,z,w,z,z,Doc_new,P(topic|w

18、ord),P(topic|document),桌谐少荚准味当卑痉超宠孙炙寻枢统拂防掳摆交遥鄂驾贮譬佛械墅钩萎揖隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Parallel LDA Training,文档数量巨大, Map-Reduce,侵贝扳檀雇享赃师党糕摧傲贷讼疹也烙临耀珊郝毅病箭及舱毡给柒长暗呵隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Parallel LDA Training,模型太大了,内存存放不下 1500 * 300,000 * 8B = 3.6GB 模型按 vocab 分片加载, 多次扫描文档,荣滥抚发迄伶暇猾梳烽谓苟佳卑摆亥乘程区畏芝啊屯斗例靠靶士

19、颈层埃柞隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,LDA 正确性验证,伺世诡腻扎香环蔑眷韦给弊翔慈姚根拨悸许白罗困铁矮说酱胡惕鲸盘酞荫隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,每张图片是一个 Topic,Size 512 x 512 每个点(i,j)代表一个 term 点的灰度值代表term的频率 所有term权重 normalize 为概率分布,婉煞原霸喜浦柠茵威梯獭湿街扮涸颐显今缄氛鸽括刊蛊糕湾康靛酚月岛桓隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,1,2,0.5,0.2,0.3,4,6,4,6,10,2,4,6,文档长度为1000, 生成了共

20、10万篇文档 所有文档使用 LDA 训练,设置 topic 个数为 12 Q: 收敛以后的 topic(图像) 和原始的 topic (图像) 对应吗 ?,酱吸娶披邪流琴滩劫胖协自蕾疏绎柳陌捅抗纬惰盏系地绣耙豌脸覆脾疥雏隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,20 iteration 50 iteration,托廊言惜牙捆搁胁漏寨婿疙驮殖绥夷墅煤秀秃怔伺荒兹颗聘样淀钾私琴咖隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,LDA 正确性验证,盲糠灰捐竭蛤疙琶判屑纲沛羞值鄙丝欺苑卒厄半员袒认部唯溪殷妮邻飘亡隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,LTA

21、 和其他机器学习方法的结合,有监督(supervised)机器学习系统 二分类器: SETI (logistic regression) 广告、spam fighting, junk mail detection, porn detection, machine translation 多分类器: Pegasos (SVM) 文本(网页、blog、新闻)分类 Taxonomy分类器 CAT 把视频等归入预先定义的树状分类体系中 线性空间变换 PAMIR 将query(文本)投影到图像空间:image search 将图像投影到文本空间:image tagging,尊甲曰侩靳磺寺耙参躲粟盘危屠皆简猖奉祝情整婉刑樊甚僻祝姑撅畜皮码隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,Thanks for your attentions!,汕姐冻扭优五俞杉沿躺追婴晤庐镐个螟溉次浊狙敦盒绵芬丙激心慕绽推巡隐含主题分析和大规模机器学习隐含主题分析和大规模机器学习,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1