大数据分析平台系统开发.docx

上传人:scccc 文档编号:12964947 上传时间:2021-12-08 格式:DOCX 页数:6 大小:67.50KB
返回 下载 相关 举报
大数据分析平台系统开发.docx_第1页
第1页 / 共6页
大数据分析平台系统开发.docx_第2页
第2页 / 共6页
大数据分析平台系统开发.docx_第3页
第3页 / 共6页
大数据分析平台系统开发.docx_第4页
第4页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大数据分析平台系统开发.docx》由会员分享,可在线阅读,更多相关《大数据分析平台系统开发.docx(6页珍藏版)》请在三一文库上搜索。

1、精品大数据分析平台系统开发大数据分析平台系统开发公司马小姐1 、搭建大数据平台离不开BI 。在大数据之前, BI 就已经存在很久了,简单把大数据等同于 BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI 是达成业务管理的应用工具,没有BI,大数据就没有了价值转化的工具,就无法把数据的价值呈现给用户, 也就无法有效地支撑企业经营管理决策;大数据则是基础,没有大数据, BI 就失去了存在的基础,没有办法快速、实时、高效地处理数据,支撑应用。所以,数据的价值发挥,大数据平台的建设,必然是囊括了大数据处理与BI 应用分析建设的。2 、大数据拥有价值。 来看看数据使用金字塔模型,从数据的使用角

2、度来看,数据基本有以下使用方式:感谢下载载精品自上而下,可以看到,对数据的要求是不一样的:数据量越来越大,维度越来越多。交互难度越来越大。技术难度越来越大。以人为主,逐步向机器为主。用户专业程度逐步提升,门槛越来越高。企业对数据、 效率要求的逐步提高, 也给大数据提供了展现能力的平台。企业构建大数据平台, 归根到底是构建企业的数据资产运营中心,发挥数据的价值, 支撑企业的发展。感谢下载载精品整体方案思路如下:建设企业的基础数据中心,构建企业统一的数据存储体系,统一进行数据建模,为数据的价值呈现奠定基础。 同时数据处理能力下沉, 建设集中的数据处理中心,提供强大的数据处理能力; 通过统一的数据管

3、理监控体系, 保障系统的稳定运行。有了数据基础,构建统一的BI 应用中心,满足业务需求,体现数据价值。提到大数据就会提到hadoop 。大数据并不等同于hadoop ,但 hadoop的确是最热门的大数据技术。 下面以最常用的混搭架构, 来看一下大数据平台可以怎么通过 Kafka作为统一采集平台的消息管理层,灵活的对接、适配各种数据源采集(如集成 flume ),提供灵活、可配置的数据采集能力。感谢下载载精品利用 spark 和 hadoop技术,构建大数据平台最为核心的基础数据的存储、处理能力中心,提供强大的数据处理能力,满足数据的交互需求。同时通过sparkstreaming,可以有效满足

4、企业实时数据的要求,构建企业发展的实时指标体系。同时为了更好的满足的数据获取需求,通过 RDBMS ,提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛。对大数据明细查询需求,则通过构建 HBase 集群,提供大数据快速查询能力,满足对大数据的查询获取需求。一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤:1、Linux 系统安装一般使用开源版的Redhat 系统 -CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID 和挂载数据存储节点的时,需要按情况配置。比如,可以选择给 HDFS 的 namenode做 RAID2 以提高其稳定性,将数据存储与操

5、作系统分别放置在不同硬盘上,以确保操作系统的正常运行。2、分布式计算平台 / 组件安装当前分布式系统的大多使用的是Hadoop系列开源系统。 Hadoop的核心是HDFS ,一个分布式的文件系统。在其基础上常用的组件有Yarn 、Zookeeper、Hive 、Hbase 、 Sqoop 、Impala 、 ElasticSearch 、Spark 等。使用开源组件的优点: 1 )使用者众多,很多 bug 可以在网上找的答案(这往往是开发中最耗时的地方) ;2 )开源组件一般免费,学习和维护相对方便;3 )开源组件一般会持续更新; 4)因为代码开源, 如果出现 bug 可自由对源码作修改维护。

6、感谢下载载精品常用的分布式数据数据仓库有Hive 、Hbase 。Hive 可以用 SQL 查询, Hbase可以快速读取行。外部数据库导入导出需要用到Sqoop 。 Sqoop将数据从Oracle 、MySQL 等传统数据库导入Hive 或 Hbase 。Zookeeper是提供数据同步服务,Impala 是对 hive 的一个补充,可以实现高效的SQL 查询3、数据导入前面提到,数据导入的工具是Sqoop 。它可以将数据从文件或者传统数据库导入到分布式平台。4、数据分析数据分析一般包括两个阶段:数据预处理和数据建模分析。数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL ,Spark QL 和 Impala 。数据建模分析是针对预处理提取的特征/ 数据建模,得到想要的结果。如前面所提到的,这一块最好用的是Spark 。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在MLlib 里面,调用比较方便。5、结果可视化及输出API可视化一般式对结果或部分原始数据做展示。一般有两种情况, 行数据展示, 和列查找展示。感谢下载载精品感谢下载 !欢迎您的下载,资料仅供参考感谢下载载

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1