Spark大数据处理平台的构建及应用.doc

上传人:吴起龙 文档编号:1580940 上传时间:2018-12-25 格式:DOC 页数:4 大小:15.23KB
返回 下载 相关 举报
Spark大数据处理平台的构建及应用.doc_第1页
第1页 / 共4页
Spark大数据处理平台的构建及应用.doc_第2页
第2页 / 共4页
Spark大数据处理平台的构建及应用.doc_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《Spark大数据处理平台的构建及应用.doc》由会员分享,可在线阅读,更多相关《Spark大数据处理平台的构建及应用.doc(4页珍藏版)》请在三一文库上搜索。

1、Spark大数据处理平台的构建及应用【关键字】 大数据分析 Hadoop Spark 内存计算 一、引言 近年来,大数据成为工业界与学术界关注的热点,因为随着存储设备容量的快速增长、CPU处理能力的大幅提升、网络带宽的不断增加,也为大数据时代提供了强有力的技术支撑。从web1.0到web2.0,每个用户都成为一个自媒体,一个互联网内容的提供者,这种数据产生方式的变革更是推动着大数据时代的到来。 二、相关研究 什么是大数据呢?大数据是由结构化与非结构化数据组成的,其中10%为结构化数据,存储于各类数据库中,90%为非结构化数据,非结构化数据如图片、视频、邮件、网页等,现如今,大数据应用以渗透到各

2、行各业,数据驱动决策,信息社会智能化程度大幅提高。目前,国内相关技术主要集中在数据挖掘相关算法、实际应用及有关理论方面的研究,涉及行业比较广泛,包括零售业、制造业、金融业、电信业、网络相关专业、医疗保健及科学领域,单位集中在部分高等院校、研究所和公司,特别是在IT等新兴领域,阿里巴巴、腾讯、百度等巨头对技术发展推动作用巨大,而这些互联网巨头们在大数据处理中,又纷纷采用了Hadoop、Spark这一处理框架。 三、基于spark的大数据处理平台 3.1大数据平台搭建 环境说明:3台装有Ubuntu14.04操作系统的PC机,Hadoop 2.6.0,Spark1.6.0。 Hadoop环境的搭建

3、首先从apache官网下载合适版本的Hadoop代码,本文中安装的Hadoop版本为Hadoop 2.6.0。首先需要在各台实验PC机之间设置SSH免密码登录,无密码登录的原理:用户在 master上生成一个密钥对,包括一个公钥和一个私钥,并将公钥复制到所有的 slave上。然后当 master 通过 SSH 连接 slave 时, slave 就会生成一个随机数并用 master 的公钥对随机数进行加密,并发送给 master ,master用自己的私钥进行解密得到解密数,并将解密数回传给slave,slave确认解密数无误之后就允许master不输入密码进行连接了,通过免密码登录主节点于从

4、节点之间即可进行数据计算结果的快速交互。随后确认本机上是否安装了jdk,如未安装需要先安装Java的jdk,本环境中使用的是jdk1.8.0版本。 然后将下载的Hadoop文件解压到某个目录下,进行Hadoop的配置过程,涉及的配置文件有7个,分别为hadoop-env.sh,yarn-env.sh,slaves,core-site.xml,hdfs-site. xml,mapred-site.xml,yarn-site.xml,具体配置参数可查看相关教程。在主节点(master)配置完毕后,将整个Hadoop文件夹依次拷贝到各个slave节点。Hadoop安装完毕后,即可启动验证,首先格式化

5、Hadoop节点,执行以下命令,只需格式一次: $hadoop namenode -format 进入Hadoop目录下的sbin文件夹,启动Hadoop, $./start-all.sh 检查Hadoop进程, $jps master节点上有如下进程,如图1: slave节点上有如下进程,如图2: 表明Hadoop集群已配置完成。 安装完Hadoop后,即可进行Spark安装文件的配置,基本同Hadoop的配置相似,将Spark安装完毕后,可以启动spark-shell查看安装是否成功。 3.2大数据平台分析 spark集群处理环境搭建完毕后,我们可以使用其进行简单的数据分析,spark1.6.0中也为我们提供了示例代码,涵盖流计算、图计算、机器学习、sql查询处理等程序,用户可以方便的参考学习,从而进行自己的开发应用。 参 考 文 献 1王珊,王会举,覃雄派,周?. 架构大数据:挑战、现状与展望J. 计算机学报. 2011(10) 2樊嘉麒. 基于大数据的数据挖掘引擎D. 北京邮电大学 2015

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1