夏粉-广告数据上的大规模机器学习.pdf

资源描述

《夏粉-广告数据上的大规模机器学习.pdf》由会员分享，可在线阅读，更多相关《夏粉-广告数据上的大规模机器学习.pdf（27页珍藏版）》请在三一文库上搜索。

1、夏粉_百度目录背景问题技术小结计算广告学计算广告学与CTR预估计算广告学的核心问题: 给定的环境下，用户与广告的最佳匹配流量变现: 方法: 依赖机器学习和历史数据，做精准CTR预估百度推广百度推广 *profitPVCTR ACP CTR预估问题 CTR 预估系统广告库 , 21l adadadD 广告请求 )(i q 广告的预估CTR )( )( 2 )( 1 _ _ _ i n i i i adPctr adPctr adPctr 点击率预估-机器学习模型数据处理流程日志特征预处理特征数据数据预处理模型训练模型评估大规模机器学习问题大规模机器学习

2、问题特征之间存在高度非线性关系特征复杂度高点击率随时间变动， e.g., 兴趣变化新广告和流量上线，旧广告和流量下线数据时效性高模型更新策略调研数据训练频繁每天百亿广告展现，十亿特征类别不平衡、噪音大数据特征规模大大规模机器学习技术数据处理技术机器学习技术点选择对点击概率分布预估足够多样本解决方法：不可见和不完整样本过滤样本采样异常样本检测目标获取主要信息去除异常噪音数据采样: Google: 采样：矫正：原理：采样后的期望损失等于原损失噪音检测计算点击率随时间变化趋势百度首创：SA算法 0 0.1 0.2 0.3 0.4 13579

3、111315171921232527293133353739414345474951 随机噪音 sa=0.00275 0 0.002 0.004 0.006 0.008 0.01 0.012 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 141 146 151 156 161 166 正常样本 sa=-10.977 特征处理技术目标选择尽可能少的特征表示模型和数据 CTR预估机器学习技术特征选择特征删减特征类型：类别型特征(categorical

4、 features)、连续值特征特征表示：使用one-hot编码类别型特征特征海量！特征选择数据拟合项：拟合训练数据，使得预估CTR尽可能靠近经验 CTR。 Regularization term，特征选择，降低模型复杂度其中损失取似然损失特征删减背景：模型大小占特征大小比例极低技术挑战：训练前，判断哪些特征权值为0 谷歌 : 新特征按概率p加入 Bloom Filter+次数超过n 百度首创 : Fea-G算法: 理论保证效果无损方法内存节省 AucLoss升高 Bloom(n=2) 66% 0.008% Bloom(n=1) 55% 0.003% Poiss

5、on(p=0.003) 60% 0.020% Poisson(p=0.1) 40% 0.006% Fea-G 97% 0% 深度特征学习技术特征调研背景构造高阶组合特征，描述特征之间非线性关系人工挖掘，耗时！耗力！依赖先验，无推广性！假设有N个单特征类，组合特征候选类：选最优特征类，需要时间：组合特征调研单特征 site Ad hour Cookie 组合特征 Site-Ad Site-hour Ad-cookie N N N NNN N CCCC 121 .2 日志处理特征抽取模型训练&评估 2N 深度特征学习算法特征学习深度学习在语音、图像上取得突破性进展广告数据特

6、征维数非常高（单特征百亿），尚无大规模稀疏特征学习算法 DANOVA: 首个直接应用于大规模稀疏特征的深度特征学习算法上线效果特征挖掘效率提升上千倍 CTR，CPM显著增长逐层贪婪学习单特征：Site, Ad, Hour, Cookie, 二阶组合：Site-Ad, Site-Hour, Ad-Cookie, 高阶组合：Site-Ad-Cookie，模型时效性背景：模型更新时，训练数据尽可能少技术挑战：稀疏性、时效性、稳定性方法：稀疏在线算法现状：大部分在线算法非稀疏 Google保留前N次模型梯度方法，不够稳增量增量数据数据增量增量数据数据增量增量

7、数据数据增量模型增量模型增量模型增量模型增量模型增量模型 0% 2% 4% 6% 8% 10% 0 5 10 15 20 25 时间延迟 CTR提升增量效果汇总技术创新点：训练算法：首创SOA算法，使模型稳定性更好训练架构：批处理改为在线，节省资源80%以上在线学习平台：在大数据上实现分钟级别的在线学习时效性从20-30小时降到分钟 Ctr累积大幅提升在线学习时效性为分钟 Ctr显著提升资源节省50% 模型训练线性逻辑回归模型目标函数 n i wxy w wce n wL T ii 1 1 |)1log( 1 )(minarg 训练算法优化背景：寻找更好优化方向

8、，减少迭代轮数技术方案：算法创新：Shooting算法，更准的方向性能变化：相比于LBFGS训练轮数从平均50轮下降到5轮，训练更充分 2380 2390 2400 2410 2420 13579 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 x 10000 LBFGS shooting 单元小结小结以CTR预估为例，大数据学习技术应用计算广告学，尽可能少的资源尽可能多的提升CTR准确率大数据学习技术：数据和特征过滤算法，容纳百亿数据特征深度特征学习算法，学习效率提升千倍稀疏在线算

9、法，模型分钟更新模型训练算法，速度提升十倍与Google Seti对比网盟CTR预估模型：数据和特征过滤算法，容纳百亿数据特征深度特征学习算法，学习效率提升千倍稀疏在线算法，模型分钟更新模型训练算法，速度提升十倍 Google Seti: (4/06/2010 08:00:00 AM Posted by Simon Tong, Google Research) Binary classification (produces a probability estimate of the class label) Parallelized Scales to process h

10、undreds of billions of instances and beyond Scales to billions of features and beyond Automatically identifies useful combinations of features Accuracy is competitive with state-of- the-art classifiers Reacts to new data within minutes 关注我们：t.baidu- 资料下载和详细介绍： InfoQ 策划组织实施关注我们： “畅想交流争鸣聚会”是百度技术沙龙的宗旨。百度技术沙龙是由百度与InfoQ中文站定期组织的线下技术交流活动。目的是让中高端技术人员有一个相对自由的思想交流和交友沟通的的平台。主要分讲师分享和OpenSpace两个关键环节，每期只关注一个焦点话题。讲师分享和现场Q&A让大家了解百度和其他知名网站技术支持的先进实践经验，OpenSpace环节是百度技术沙龙主题的升华和展开，提供一个自由交流的平台。针对当期主题，参与者人人都可以发起话题，展开讨论。

展开阅读全文