夏粉-广告数据上的大规模机器学习.pdf

上传人:李主任 文档编号:3332937 上传时间:2019-08-13 格式:PDF 页数:27 大小:936.89KB
返回 下载 相关 举报
夏粉-广告数据上的大规模机器学习.pdf_第1页
第1页 / 共27页
夏粉-广告数据上的大规模机器学习.pdf_第2页
第2页 / 共27页
夏粉-广告数据上的大规模机器学习.pdf_第3页
第3页 / 共27页
夏粉-广告数据上的大规模机器学习.pdf_第4页
第4页 / 共27页
夏粉-广告数据上的大规模机器学习.pdf_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《夏粉-广告数据上的大规模机器学习.pdf》由会员分享,可在线阅读,更多相关《夏粉-广告数据上的大规模机器学习.pdf(27页珍藏版)》请在三一文库上搜索。

1、夏粉_百度 目录 背景 问题 技术 小结 计算广告学 计算广告学与CTR预估 计算广告学的核心问题: 给定的环境下,用户与广告的最佳匹配 流量变现: 方法: 依赖机器学习和历史数据,做精准CTR预估 百度推广百度推广 *profitPVCTR ACP CTR预估问题 CTR 预估系统 广告库 , 21l adadadD 广告请求 )(i q 广告的预估CTR )( )( 2 )( 1 _ _ _ i n i i i adPctr adPctr adPctr 点击率预估-机器学习模型 数据处理流程 日志 特征预处理 特征 数据 数据预处理 模型训练 模型 评估 大规模机器学习问题 大规模机器学习

2、问题 特征之间存在高度非线性关系 特征复杂度高 点击率随时间变动, e.g., 兴趣变化 新广告和流量上线,旧广告和流量下线 数据时效性高 模型更新 策略调研 数据训练频繁 每天百亿广告展现,十亿特征 类别不平衡、噪音大 数据特征规模大 大规模机器学习技术 数据处理技术 机器学习技术点 选择对点击概率分布 预估足够多样本 解决方法: 不可见和不完整样本过滤 样本采样 异常样本检测 目标 获取主要信息 去除异常噪音 数据采样: Google: 采样: 矫正: 原理: 采样后的期望损失等于原损失 噪音检测 计算点击率随时间变化趋势 百度首创:SA算法 0 0.1 0.2 0.3 0.4 13579

3、111315171921232527293133353739414345474951 随机噪音 sa=0.00275 0 0.002 0.004 0.006 0.008 0.01 0.012 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 141 146 151 156 161 166 正常样本 sa=-10.977 特征处理技术 目标 选择尽可能少的特 征表示模型和数据 CTR预估 机器学习技术 特征选择 特征删减 特征类型: 类别型特征(categorical

4、 features)、连续值特征 特征表示: 使用one-hot编码类别型特征 特征海量! 特征选择 数据拟合项:拟合训练数据, 使得预估CTR尽可能靠近经验 CTR。 Regularization term,特征 选择 ,降低模型复杂度 其中损失取似然损失 特征删减 背景: 模型大小占特征大小比例极低 技术挑战: 训练前,判断哪些特征权值为0 谷歌 : 新特征按概率p加入 Bloom Filter+次数超过n 百度首创 : Fea-G算法: 理论保证效果无损 方法 内存节省 AucLoss升高 Bloom(n=2) 66% 0.008% Bloom(n=1) 55% 0.003% Poiss

5、on(p=0.003) 60% 0.020% Poisson(p=0.1) 40% 0.006% Fea-G 97% 0% 深度特征学习技术 特征调研背景 构造高阶组合特征,描述特征之间非线性关系 人工挖掘,耗时!耗力!依赖先验,无推广性! 假设有N个单特征类,组合特征候选类: 选最优特征类,需要时间: 组合特征调研 单特征 site Ad hour Cookie 组合特征 Site-Ad Site-hour Ad-cookie N N N NNN N CCCC 121 .2 日志处理 特征抽取 模型训练&评估 2N 深度特征学习算法 特征学习 深度学习在语音、图像上取得突破性进展 广告数据特

6、征维数非常高(单特征百亿),尚无大规模稀疏特征学习算法 DANOVA: 首个直接应用于大规模稀疏特征的深度特征学习算法 上线效果 特征挖掘效率提升上千倍 CTR,CPM显著增长 逐 层 贪 婪 学 习 单特征:Site, Ad, Hour, Cookie, 二阶组合:Site-Ad, Site-Hour, Ad-Cookie, 高阶组合:Site-Ad-Cookie, 模型时效性 背景: 模型更新时,训练数据尽可能少 技术挑战: 稀疏性、时效性、稳定性 方法:稀疏在线算法 现状: 大部分在线算法非稀疏 Google保留前N次模型梯度方法,不够稳 增量增量 数据数据 增量增量 数据数据 增量增量

7、 数据数据 增量模型增量模型增量模型增量模型增量模型增量模型 0% 2% 4% 6% 8% 10% 0 5 10 15 20 25 时间延迟 CTR提升 增量效果汇总 技术创新点: 训练算法:首创SOA算法,使模型稳定性更好 训练架构:批处理改为在线,节省资源80%以上 在线学习平台:在大数据上实现分钟级别的在线学习 时效性从20-30小时降 到分钟 Ctr累积大幅提升 在线学习 时效性为分钟 Ctr显著提升 资源节省50% 模型训练 线性逻辑回归模型 目标函数 n i wxy w wce n wL T ii 1 1 |)1log( 1 )(minarg 训练算法优化 背景: 寻找更好优化方向

8、,减少迭代轮数 技术方案: 算法创新:Shooting算法,更准的方向 性能变化:相比于LBFGS训练轮数从平均50轮下降到5轮,训练 更充分 2380 2390 2400 2410 2420 13579 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 x 10000 LBFGS shooting 单元小结 小结 以CTR预估为例,大数据学习技术应用计算广告学,尽可能少的资 源尽可能多的提升CTR准确率 大数据学习技术: 数据和特征过滤算法,容纳百亿数据特征 深度特征学习算法,学习效率提升千倍 稀疏在线算

9、法,模型分钟更新 模型训练算法,速度提升十倍 与Google Seti对比 网盟CTR预估模型: 数据和特征过滤算法, 容纳百亿数据特征 深度特征学习算法,学 习效率提升千倍 稀疏在线算法,模型分 钟更新 模型训练算法,速度提 升十倍 Google Seti: (4/06/2010 08:00:00 AM Posted by Simon Tong, Google Research) Binary classification (produces a probability estimate of the class label) Parallelized Scales to process h

10、undreds of billions of instances and beyond Scales to billions of features and beyond Automatically identifies useful combinations of features Accuracy is competitive with state-of- the-art classifiers Reacts to new data within minutes 关注我们:t.baidu- 资料下载和详细介绍: InfoQ 策划组织实施 关注我们: “畅想交流争鸣聚会”是百度技术沙龙的宗旨。 百度技术沙龙是由百度与InfoQ中文站定期组织的线下技术交流活动。目 的是让中高端技术人员有一个相对自由的思想交流和交友沟通的的平台。主要分讲师分享和OpenSpace两个关键环节,每期 只关注一个焦点话题。 讲师分享和现场Q&A让大家了解百度和其他知名网站技术支持的先进实践经验,OpenSpace环节是百度技术沙龙主题的升华 和展开,提供一个自由交流的平台。针对当期主题,参与者人人都可以发起话题,展开讨论。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1