当互联网遇上大数据.pdf

上传人:哈尼dd 文档编号:3333401 上传时间:2019-08-13 格式:PDF 页数:35 大小:5.33MB
返回 下载 相关 举报
当互联网遇上大数据.pdf_第1页
第1页 / 共35页
当互联网遇上大数据.pdf_第2页
第2页 / 共35页
当互联网遇上大数据.pdf_第3页
第3页 / 共35页
当互联网遇上大数据.pdf_第4页
第4页 / 共35页
当互联网遇上大数据.pdf_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《当互联网遇上大数据.pdf》由会员分享,可在线阅读,更多相关《当互联网遇上大数据.pdf(35页珍藏版)》请在三一文库上搜索。

1、当移动互联网遇到大数据 当移动互联网遇到大数据 2014-10 阎志涛 TalkingData 研发副总裁 数据来源:TalkingData u 中国移动互联网现状-用数据说话 u 移动互联网大数据特点 u 移动互联网大数据价值和利用 u 移动互联网大数据技术 u 移动互联网大数据未来和挑战 数据来源:TalkingData 中国移动互联网现状中国移动互联网现状 用数据说话用数据说话 中国移动智能设备 中国移动智能设备超过8亿 Android和iOS设备的比例约为 2:1 苹果、三星、小米、华为占据前 四 iPhone 5S, iPhone 4S, iPhone 5,iPhone 4分列苹果设

2、备的前四 名 小米MI 3, MI 2S,红米和三星 Galaxy Note 2分列安卓的前四 位 iPhone 6和iPhone 6 Plus最近 快速普及中,在iOS设备中总计 占比已经超过2% 安卓设备中,没有一款机型占有 率超过3%,市场更为碎片化 数据来源:TalkingData 中国移动互联网现状中国移动互联网现状 用数据说话用数据说话 Android和iOS版本情况 Android系统升级缓慢 Android 4.2.2仍旧是占比最高 的安卓系统 Android 4.4.2(2013年12月 发布)逐渐普及中 iOS用户升级迅速, iOS 7.1.2(2014年7月发布)占比 最

3、高 iOS 8.0.2(2014年9月26日发 布)占比升到第二位 2014.7.7 2014.7.13 2014.10.6 2014.10.12 数据来源:TalkingData 中国移动互联网现状中国移动互联网现状 用数据说话用数据说话 移动应用使用情况 BAT以及其关联企业所开发应 用占据Top 10应用中的9席 微信和QQ一直雄踞中国移动应 用覆盖率前两名,并且远远超 过第三名淘宝 应用覆盖前50名应用中,视频 和音频等娱乐类应用占据10款, 电商类应用6款,社交类应用5 款,游戏类3款。越来越多的人 在移动设备侧完成休闲娱乐和 购物。 在Android系统前50名中,搜 索、助手、浏

4、览器、安全等工 具软件多达13款且多为BAT3占 领。 数据来源:TalkingData 中国地区,平均每部设备中安装33款非系统应用,其中3款是游戏。 中国移动互联网现状中国移动互联网现状 用数据说话用数据说话 AVG. APP 33款 5.3% 3.6% 6.4% 11.0% 18.7% 29.3% 24.0% 1.6% 0% 10% 20% 30% 40% 70+ 60-69款 50-59款 40-49款 30-39款 20-29款 10-19款 10款 APP款数 1.5% 1.3% 3.8% 14.1% 79.4% 0% 20% 40% 60% 80% 20+ 15-19款 10-1

5、4款 5-9款 5款 Game款数 AVG. Game 3款 数据来源:TalkingData 中国移动仍然是最大的移动运营商 中国移动互联网现状中国移动互联网现状 用数据说话用数据说话 数据来源:TalkingData 人们在移动侧的联网方式 中国移动互联网现状中国移动互联网现状 用数据说话用数据说话 数据来源:TalkingData 移动互联网大数据特点移动互联网大数据特点 移动互联网大数据的4V Volume 随时随地都在产生数据,数据量更大 Variety 随时随地联网的特性,使得移动互联网的数据更具有多样性。在移动侧可以有更为精准的位置数据,各种传 感器数据。 Velocity 对速

6、度处理的要求性更高,很多的业务场景需要更实时的数据处理才能使得数据产生价值。 Value 更多高价值的数据产生 万物皆可联网,数据方便人的生活 IOT逐渐成为现实,万物都在贡献数据 各种智能硬件逐渐普及 数据来源:TalkingData 移动互联网大数据价值和利用移动互联网大数据价值和利用 更好的个性化服务 更为精准的个性化营销 更为便利的生活,各种O2O服务 数据来源:TalkingData 租房宝租房宝 获客推广获客推广 案例分享 数据来源:TalkingData 潜在高价值客群 潜在高价值客群 居住城市居住城市:北北、上上、广广、深等一线城市深等一线城市 生活半径生活半径:上海内环以外上

7、海内环以外,中环以内 中环以内 年龄年龄:22 3022 30岁岁 生活特征生活特征:宅男腐女 宅男腐女 至少拥有一张信用卡至少拥有一张信用卡 招行招行、交通交通、中信卡用户更为优质 中信卡用户更为优质 iphoneiphone用户较多用户较多 三星三星galaxygalaxy、notenote系列用户较多 系列用户较多 租房宝潜客定义 租房宝潜客定义 数据来源:TalkingData 移动互联网大数据价值案例移动互联网大数据价值案例 修正IP库对位置的映射 IP库作为互联网的一种数据,是互联网广告做城市定向的一个基础 传统的IP库利用IP到运营商的分配为基础,QQ类似的应用做众包来修正 由于

8、运营商倒卖ip资源,在城市维度就已经有很大误差 很难达到更为精准的从ip到位置的映射 移动侧则可以方便的通过GPS进行IP库校准 数据来源:TalkingData 移动互联网大数据价值案例移动互联网大数据价值案例 O2O电影在线购票反向导流 数据来源:TalkingData 移动互联网大数据价值案例移动互联网大数据价值案例 O2O电影在线购票反向导流 数据来源:TalkingData 移动互联网大数据价值案例移动互联网大数据价值案例 O2O电影在线购票反向导流 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 移动互联网大数据处理的一般流程 数据获取 数据收集 数据存

9、储 数据计算 数据服务 数据来源:TalkingData 数据获取 移动互联网大数据技术移动互联网大数据技术 移动互联网大数据处理系统架构 监 控 和 管 理 数据收集和ETL 分布式文件系统 元数据 离线计算 流式计算 批量计算 机器学习 接口层 数据应用 资 源 和 任 务 调 度 NoSQL RDBMS 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 移动互联网数据获取技术 移动App直接获取 通过SDK获取 通过Spider爬取 移动互联网数据收集 一般数据都以日志形式在服务端进行收集 LVS和nginx做为前置 Kafka, Fluentd, Flume,

10、 Scribe作为日志收集的技术框架 ETL(Extract-Transform Load )技术 Kettle 基于Actor模型的并行处理 利用Pig, Hive,甚至MR做ETL 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 分布式文件系统 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点 上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 NoSQL(如下描述来自于维基百科) NoSQ

11、LNoSQL有时也称作Not Only SQLNot Only SQL的缩写,是对不同于传统的关联式数据库的数据库管理系统的统称。 两者存在许多显著的不同点,其中最重要的是NoSQL不使用SQL作为查询语言。其数据存储可以不需要固定 的表格模式,也经常会避免使用SQL的JOIN操作,一般有水平可扩展性的特征。NoSQL的实现具有二个特征: 使用硬盘,或者把随机存储器作存储载体。 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 常用NoSQL产品 Hbase 开源的Google BigTable的实现 底层是用HDFS存储 与Hadoop完美的结合 多客户端的访问 C

12、assandra Facebook开发的一套NoSQL产品 集Google BigTable和Amazon Dynamo的完全分布式架构于一身 不依赖于底层的分布式存储 相对于Hbase更好的读写性能 MongoDB 10Gen公司开发的NoSQL数据库 文档型数据库,采用BSON格式存储 可以非常灵活的进行字段的增加 Redis 内存式KV数据库 适合做集中式缓存 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 离线计算 Hadoop MapReduce 对Google MapReduce的开源实现,大数据领域分布式计算的基础性的实现。 Hive 在Hadoop上

13、的数据仓库,支持SQL语言,SQL语言最终会翻译成Map Reduce Pig 利用Pig Latin进行Map Reduce开发 Spark 最近非常火热的基于内存的的分布式计算框架,采用Scala语言开发,相对于Hadoop MapReduce,有巨大的 性能提高 Presto Facebook开发的分布式查询和分析引擎 Impala Cloudera开发的分布式查询和分析引擎 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 流式计算 Storm Twitter开发的一套开源的分布式流式计算框架 Spark Streaming 基于Spark的一套流式计算框架,

14、事实上是小batch模式的计算 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 批量计算 Spark Streaming 如上一张slides所讲 Torch TalkingData开发的一套分布式批量计算框架,支持Count, Sum, Join等计算。 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 机器学习 Mahout 在Hadoop上实现的一套开源的机器学习库,包含了主流的机器学习算法的实现 包含CF, Classification, Clustering, Topic Model等等主要的机器学习算法 最新版本已经抛弃了MR,

15、逐渐拥抱Spark Weka 一个开源的机器学习库,适合学习用,不适合大数据环境 Spark Mllib 在Spark上的一套开源的机器学习库 包含Kmeans, Linear SVM, LR等一些常用的机器学习算法的实现 H2O 基于Spark的深度学习库 Parameter Server CMU, Baidu, Google,Intel 等等提供支持的一套分布式机器学习系统以及算法实现 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 分布式任务调度 Oozie Oozie是Apache社区一套开源的进行分布式任务调度的系统。支持将不同的MapReduce任务组合

16、成一个工 作流。 Azkaban Azkaban是LinkedIn开源出来的一套分布式任务调度系统,相比Oozie更为简洁。 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 监控和管理 Gangalia 一个分布式的系统监控工具,可以很方便的监控系统的内存、CPU、网络等。 Nagios 另外一个开源的系统监控工具,除了监控指标,还支持通知和报警 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 其他相关技术 ZooKeeper ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,包含一个简单的原语集,是Hadoop和 Hb

17、ase的重要组件。2 提供Java和C的接口。 Protocol Buffers Google定义的一套进行数据集成的格式 Thrift 类似于PB,来自于Facebook。 JSON 适合open api使用的轻量级的数据传输和格式 数据来源:TalkingData 移动互联网大数据技术移动互联网大数据技术 一个大数据参考技术架构实现(TalkingData Data Managemeng Platform) 数据来源:TalkingData 移动互联网大数据未来和挑战移动互联网大数据未来和挑战 可穿戴设备 数据来源:TalkingData 移动互联网大数据未来和挑战移动互联网大数据未来和挑战 智能家居 数据来源:TalkingData 移动互联网大数据未来和挑战移动互联网大数据未来和挑战 智能汽车 智能自行车 智能农业 数据来源:TalkingData 移动互联网大数据未来和挑战移动互联网大数据未来和挑战 移动互联网大数据的挑战 隐私问题 数据安全 数据来源:TalkingData 谢谢谢谢! http:/

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1