Hadoop在广告监测技术的实践.pdf

上传人:yyf 文档编号:3330231 上传时间:2019-08-13 格式:PDF 页数:32 大小:2.14MB
返回 下载 相关 举报
Hadoop在广告监测技术的实践.pdf_第1页
第1页 / 共32页
Hadoop在广告监测技术的实践.pdf_第2页
第2页 / 共32页
Hadoop在广告监测技术的实践.pdf_第3页
第3页 / 共32页
Hadoop在广告监测技术的实践.pdf_第4页
第4页 / 共32页
Hadoop在广告监测技术的实践.pdf_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《Hadoop在广告监测技术的实践.pdf》由会员分享,可在线阅读,更多相关《Hadoop在广告监测技术的实践.pdf(32页珍藏版)》请在三一文库上搜索。

1、Hadoop在广告监测技术的实践 AdMaster(精硕科技) 卢亿雷 目录目录 广告营销数据流程介绍 广告监测技术特点分析 广告监测数据差异分析 广告数据挖掘平台架构 ADH在广告营销数据挖掘的特点 AdMaster数据分析平台 广告营销广告营销数据流程介绍数据流程介绍 展示广告 Minisite 微博 全流程营 销 Ad Exchange(广告交易平台) DSP(Demand Side Platform,需求方平台) SSP(Sell-Side Platform,供应方平台) DMP(Data-Management Platform,数据管理平台) 实时竞价 营销 什么是Cookie: 指

2、某些网站为了辨别用户身份而储 存在用户本地终端(Client Side) 上的数据(通常经过加密)-维基 百科 Cookie本身不能跨浏览器,更不能 跨设备,且有过期时间限制 a Cookie知识广告监测技术特点广告监测技术特点 广告监测工作流程广告监测工作流程 广告监测技术的出现,使我们真正认识了数字营销广告监测技术的出现,使我们真正认识了数字营销 从此,“盲人摸象”成为了历史 广告监测数据差异原因广告监测数据差异原因 对于同一个IP,采用不同IP库的系统可能会得出不同的地域结论 智能路由难题: 中小宽带接入商智能地选择更快或成本更低的线路连接到服务器。 两个独立系统(如监测和投放)同时采集

3、同一个用户的IP,会取得不同的IP值。 ADSL FTTB 2/3G VPN WIFI 内容管理系统 广告投放系统 广告监测系统 广告监测数据差异原因广告监测数据差异原因 监测代码的部署时点的不同 监测机制和指标定义的差异 检查缓存 素材加载缓存调用 页面加载 开始播放 播放完成重新播放 广告监测数据差异原因广告监测数据差异原因 同步(串联)点击和异步(并联)点击监测;主要为了适应移动APP较不稳定的网络环境 同步(串联)点击监测异步(并联)点击监测 广告监测系统 广告监测数据差异原因广告监测数据差异原因 浏览器 Cookie 和Dual Cookie 浏览器Cookie容易被清除,不能跨浏览

4、器和PC客户端,因此需要使用Flash Cookie 进行校正 广告监测中存在的广告监测中存在的数据异常数据异常 无中生有 曝光造假 (曝光代码放在其他无广告页面) 点击造假 (嵌到其他点位骗点 / 刷点击代码) 频次造假 (控制机器人清除 Cookie 刷曝光) 重复调用监测造假 (一条广告刷多条曝光代码) 鱼目混珠 定向内容掺水 (利用非热门剧目和频道) 定向地域掺水 (利用三四线城市库存流量) 播放顺位掺水 (前帧贴后帧 / 轮播位置换序) 站外流量掺水 (够买廉价长尾流量) 广告异常甄别的六大维度广告异常甄别的六大维度 异常甄别 页面URL 时间 地域 HTTP信息 点击行为 频次 1

5、2 素材曝光、曝光后点击、点击后互动构成互相牵制的时间线 Cookie ID / IP地址 / User Agent 组成受众的甄别信息 广告素材播放页面的URL,用于判定点位匹配度、定向质量度 频次频次 地域地域 GeographicGeographic 点击前曝光频次,如果点击产生前是 0曝光,该点击存在异常 广告显示和点击地域匹配度 页面页面URLURL URL & ReferrerURL & Referrer 利用浏览器Referrer 信息,获取广告 所在页面URL地址 HTTPHTTP信息信息Session、浏览器版本、操作系统版 本等信息;机器客户端模拟的行为 上述信息异常 点击

6、行为点击行为 点击率、到达率、跳失率、访问时间 和访问深度的五维识别模型 时间时间 TimeTime 同一cookies显示、点击间隔 从广告显示到第一次点击的决策时间 FrequencyFrequency Conversion & PostConversion & Post- -click Actionclick Action HTTP Header & User AgentHTTP Header & User Agent 广告异常甄别的六大维度 广告营销数据案例分析广告营销数据案例分析 喜欢浏览品牌 页面并喜欢看 时政新闻 每日多次浏览 品牌官方首页 并参与活动 多次转发品牌 官微;最近关

7、 注家电类,多 关注家电类相 关微博 填写品牌调研 问卷 最近经常家电, 多次关注家电 竞拍活动 页面浏览行为网站浏览行为社交网络行为调研问卷结果网上购买行为 家电新闻冰箱 男 20-25岁 NormalizationNormalization Tags N ormalizationN ormalization 年龄:(12, 29) 学历:(4, 6) 性别:1 未知 已知 广告营销数据特点分析广告营销数据特点分析-算法算法 支持向量机(支持向量机(SVM) 判断用户男女 性别 判断用户年龄 分段 判断品牌投放 是否安全? 判断页面内容 的主题分类 判断用户分享 内容的兴趣特 征 判断用户评

8、论 的感情倾向 根据已有人群 查找类似的潜 在人群受众 根据人群历史 数据特征推断 人群的学历及 收入等属性 依据广告历史 数据预测新广 告投放的CTR 根据历史数据 评估广告的综 合投放效果 预测用户在特 定时期的兴趣 强度 预测用户在特 定时期的购买 意愿强度 自然语言处理自然语言处理聚类分析聚类分析回归分析回归分析时间序列分析时间序列分析 HDFS 离线计算 (MapReduce) PigHive Zookeeper OS(操作系统) 在线计算 (HBase) 流式计算 (Storm) 实时计算 (Spark) YARN MahoutCascading 应用服务 KafkaMQ Elas

9、ticsearch MySql MongoDB Docker 广告数据挖掘平台架构广告数据挖掘平台架构 广告数据挖掘平台架构广告数据挖掘平台架构 广告数据挖掘平台架构广告数据挖掘平台架构 Realtime Memory SSD Online Ext4 SATA Disk Online Ext4 SSD Online/Offline HDFS SATA Disk Offline MongoDBHBaseHDFSMysqlRedis Ext4 SATA Disk RabbitMQ Advertising Distribution Advertising Distribution HadoopHad

10、oop(ADH)(ADH)在广告数据挖掘的特点在广告数据挖掘的特点 ADH 优化合并过程,使采集数据直接生成客户所需格式,提高处理速度 内置广告行业算法,不需要编写MR就可以计算PV、UV等各种维度数据 优化HBase查询,专为社会化数据定制,提高处理性能 集成数据任务调度系统,可以根据业务需求自动调整计算资源 集成Storm,优化Storm传输,减小数据延迟,实时提供数据计算 集成Spark,优化迭代工作负载,优化RDD序列化,提高性能和存储效率 ADHADH在营销数据挖掘的特点在营销数据挖掘的特点- -MRMR 减少数据扩充,优化合并过程,使采集数据直接生成客户所 需格式,提高处理速度 修

11、改Reduce生成文件格式 提高了近1倍的速度 0 500 1000 1500 2000 2500 3000 普通扩充时间 优化扩充时间 ADHADH在广告营销数据挖掘在广告营销数据挖掘的特点的特点- -算法算法 内置广告行业算法,不需要编写MapReduce就可以计算PV、UV 等各种维度数据 基础数据 频次数据 增量频次数据 重合数据 独占数据 人口属性数据 来源数据 IGRP数据 ADHADH在广告营销数据挖掘在广告营销数据挖掘的特点的特点- -HBaseHBase 优化HBase查询,专为社会化数据定制,提高处理性能 内置多SCAN实现: MapReduce单表多SCAN场景,优化Ma

12、p初始化,把速 度从O(N)降为O(1) 回收策略修改: MinorCompaction MajorCompaction ADHADH在营销数据挖掘的特点在营销数据挖掘的特点- -HBaseHBase ADHADH在广告营销数据挖掘在广告营销数据挖掘的特点的特点- -调度调度 集成数据任务调度系统,可以根据业务需求自动调整计 算资源 Job 配额计算、配额查询 项目的配额分配和更新 查询任务优先级管理 ADHADH在广告营销数据挖掘在广告营销数据挖掘的特点的特点- -调度调度 集成Storm,优化Storm传输,减小数据延迟,实时 提供数据计算 修改Storm底层传输协议 应用场景 实时监控

13、多机房数据同步 ADHADH在广告营销数据挖掘在广告营销数据挖掘的特点的特点- -StormStorm ADHADH在广告营销数据挖掘在广告营销数据挖掘的特点的特点- -StormStorm 集成Spark,优化迭代工作负载,提高性能和存储 效率 优化迭代算法 修改RDD序列化方式 应用场景 增量频次计算 人群计算 ADHADH在广告营销数据挖掘在广告营销数据挖掘的特点的特点- -SparkSpark ADHADH在广告营销数据挖掘的特点在广告营销数据挖掘的特点- -SparkSpark 每天请求数约100亿左右 每天增长几TB级数据 每天对几千亿条记录进行几百种维度的计算 AdMaster数据分析平台数据分析平台 AdMaster数据数据分析分析平台平台 搜索引擎展示广告社交媒体品牌官网电子商务品牌调研视频广告 Kafka Expand MapReduce Pig Cascading 数据银行 Spark 增量频次计算 人群即席计算 Convert HDFS DMP MapReduce 情感分析 NLP Collect HBase 机器学习 Indexation 全文检索 流程预警 Extractor ElasticSearch 舆情分析 Storm MySQL Count 时间序列监测 瞬间值监测 实时监控 谢谢谢谢 卢亿雷

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1