数据采集处理项目-技术方案.pdf

上传人:白大夫 文档编号:5417530 上传时间:2020-05-04 格式:PDF 页数:15 大小:560.65KB
返回 下载 相关 举报
数据采集处理项目-技术方案.pdf_第1页
第1页 / 共15页
数据采集处理项目-技术方案.pdf_第2页
第2页 / 共15页
数据采集处理项目-技术方案.pdf_第3页
第3页 / 共15页
数据采集处理项目-技术方案.pdf_第4页
第4页 / 共15页
数据采集处理项目-技术方案.pdf_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《数据采集处理项目-技术方案.pdf》由会员分享,可在线阅读,更多相关《数据采集处理项目-技术方案.pdf(15页珍藏版)》请在三一文库上搜索。

1、xxx大数据库中心数据库 投资商和企业数据采集处理项目 项目编号: I5300000000617001206 技术方案 xxx有限公司 二一七年六月 XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 2 目 录 1 引言 . 3 1.1 项目背景 . 3 1.2 项目目标 . 3 1.3 建设原则 . 3 1.4 参考规范 . 4 1.5 名词解释 . 5 2 云数据采集中心 . 7 2.1 需求概述 . 7 2.2 总体设计 . 7 2.3 核心技术及功能 . 10 3 大数据计算平台 . 34 3.1 需求概述 . 34 3.2 总体设计 . 34 3.3 数据模型设计. 3

2、5 4 数据运营 . 38 4.1 数据挖掘分析 38 4.2 数据分析处理的主要工作 38 4.3 数据分析团队组织和管理 39 5 安全设计 . 42 6 风险分析 . 46 7 部署方案 . 47 8 实施计划 . 48 9 技术规格偏离表 . 49 10 售后服务承诺 . 52 11 关于运行维护的承诺 . 55 12 保密措施及承诺 . 56 13 培训计划 . 58 XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 3 1 引言 1.1 项目背景 XXX大数据中心建设出发点考虑从投资者角度涵盖招商全流程,尽可能为投资者解 决项目实施过程中的困难和问题,便于招商部门准确

3、掌握全省招商数据,达到全省招商 项目数据共享,形成全省招商工作“一盘棋、一张网、一体化”格局。大数据中心将充 分发挥大数据优势,加强对企业投资项目、投资轨迹分析,评估出其到XX 投资的可行 性,为招商过程留下痕迹、找到规律、明辨方向、提供“粮食”、提高效率,实现数据 寻商、数据引商、数据助商,实现数据资源实时共享、集中管理、随时查询,实现项目 可统计、可监管、可协调、可管理、可配对、可跟踪、可考核。 本次数据运营服务主要是为大数据平台制定数据运营规范及管理办法,同时为“企 业数据库”提供数据采集、存储与分析服务,并根据运营规范要求持续开展数据运营服 务。 1.2 项目目标 制定招商大数据运营规

4、范及管理办法。 制定招商大数据相关元数据标准,完成相关数据的采集、整理与存储。 根据业务需求,研发招商大数据招商业务分析模型,并投入应用。 根据运营规范及管理办法的要求持续开展数据运营工作。 1.3 建设原则 基于本项目的建设要求,本项目将遵循以下建设原则: XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 4 前瞻性和高标准整个项目要按照企业对大数据应用的需要的高要求和高标准建 设,参考行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一定 前瞻性。 经济性和实用性整个项目以现有需求为基础,充分考虑未来发展的需要来确定 系统的架构,既要降低系统的初期投入,又能满足服务对象

5、的需求,同时系统 设计应充分考虑对已有投资的保护,对已建立的数据中心、基础平台、应用软 件应提供完备的整合方案。 先进性和成熟性为了确保项目具有较长的生命周期,应充分考虑到管理创新、 技术发展需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足 业务需求。 高性能和安全性规范地进行系统建设和开发,提供合理且经济有效的应急方 案,确保系统的稳定,向各类服务对象提供可靠的服务。具有安全性,在系统 遭到攻击或崩溃时能快速恢复,确保重要数据的机密性和完整性。 1.4 参考规范 GB/T 20269-2006 信息安全技术 信息系统安全管理要求 GB/T 20984-2007 信息安全技术 信息

6、安全风险评估规范 GB/T 22239-2008 信息安全技术 信息系统安全等级保护基本要求 GB/T 22240-2008 信息安全技术 信息系统安全等级保护定级指南 GA/T 388-2002B 计算机信息系统安全等级保护管理要求 XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 5 GB/T 8567 -1988 计算机软件产品开发文件编制指 GB/T 11457-1995 软件工程术语 GB/T 11457-2006 信息技术软件工程术语 GB/T 16260.1-2006 软件工程产品质量第 1 部分:质量模型 GB/T 16260.2-2006 软件工程产品质量第 2

7、 部分:外部度量 GB/T 16260.3-2006 软件工程产品质量第 3 部分:内部度量 GB/T 16260.4-2006 软件工程产品质量第 4 部分:使用质量的度量 GB/T 14394-2008 计算机软件可靠性和可维护性管理 GB/T 17544-1998 信息技术软件包质量要求和测试 1.5 名词解释 S2DFS : 简单存储分布式文件系统 (Simple Storage Distributed File System) D2B:分布式数据库( Distributed Database ) JSS :作业调度服务( Job Scheduler Service) DCS:数据计算

8、服务( Data Computer Service ) XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 6 MPS:消息处理服务( Message Process Service) SDS:流数据处理服务( Stream Data Service) DMQ:分布式消息队列( Distributed Message Queue) JGS :作业生成服务( Job Generation Service) ACS:自动清理服务进程( Automatic Cleaning Services) HTTP:超文本传输协定( HyperText Transfer Protocol ) SMB

9、:服务器信息块协议( Server Message Block) XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 7 2 云数据采集中心 2.1 需求概述 根据规划,云数据采集中心的建立至少满足1 至 2 年内的数据存储和计算规模, 需要满足: 数据采集范围包括但不限于世界500强、全国 500强、行业 20强企业相关数据。 总数据容量至少达到30T。 2.2 总体设计 整个云数据采集中心分为三部分:硬件资源层、软件平台层、软件应用层。 硬件资源层主要指实体硬件设备, 包括用来存储数据的光纤阵列柜和存储服务器, 用 来作统计、 分析以及搜索用的计算服务器,用来部署分布式消息 (

10、DMQ )/WEB/APP 软件的 WEB 及消息服务器,用来部署用PostgreSQL 关系数据库软件的应用数据库服务器, 用 来部署作业调度服务进程 (JSS ) 的作业调度服务器。作为数据通信用的全千兆三层交换 机等等。 其中光纤阵列柜主要用来存储统计分析后的粗颗粒度数据。 存储服务器用来部署 分布式文件系统和分布式数据库,同 时存储非结构化和结构化(台标图片, 电商图片等等) 和结构化数据 (行为数据,索引数据,log 数据,清理后的细颗粒度数据等等)。计算服务器 主要用来完成数据的清理、统计、搜索等计算任务。为了节省成本和减少通信代价,建 议存储服务器和计算服务器合二为一,所以该服务

11、器同时具有计算和存储数据的功能,前 期也可以考虑把作业调度服务进程(JSS )进程部署在存储 / 计算服务器上。由于云数据 采集中心需要面对多种宽带用户 (电信、移动、联通) ,所以,数据中心的对外的网络需 要直连上电信、 移动、联通三家公司的网络, 保证以上三家公司间的通信性能高速和可 靠。 XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 8 软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计和实施的主体 部分,在核心技术章节会对“ 分布式文件系统(S2DFS) ” 、“ 分布式数据库 (D2B) ” 、“ 分 布式消息服务( DMQ)”“作业调度服务进程( JSS

12、)、数 据计算服务进程( DCS)” 主要 部分加以详细的描述。 软件平台层的所有服务器都统一部署的64 位操作系统CentOS 6.5(也可以选择 RHEL 6.5 x64);其核心软件或者进程有:分布式文件系统(S2DFS)、分布式数据库 (D2B)、作业调度服务进程( JSS )、数据计算服务进程(DCS)、作业生成服务进 程(JGS)、消息处理服务进程( MPS)、流数据处理进程(SDS)等等。 WEB 及应 用服务器软件Apache&Tomcat,消息队列软件分布式消息(DMQ)。还要实现整个云 数据采集中心的资源管理及监控管理系统。 软件应用层是云数据采集中心的功能实现及UI 表达

13、层,功能实现需要基于软件 平台层的支撑, 后期设计和实施的主体。 该层的主要功能应用有: 数据采集应用、数据统 计应用、云数据采集中心的资源监控及调度。 通过公共数据网(电信、联通、移动)和 HTTP 协议,把采集的海量文本、 图片数据以及 用户行为数据存储在云数据采集中心里, 以供后期分析计算用。 XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 9 云数据采集中心整体架构图 云数据采集中心网络结构图 XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 10 2.3 核心技术及功能 2.3.1 分布式文件存储技术 (1)传统存储技术面临的问题: 构建成本高:大容量及

14、高网络带宽的高端存储系统架构昂贵。 文件系统功能和性能差强人意:难以实现全局命名空间的文件共享、文件 系统难以扩展,容易形成瓶颈。 扩展性困难:技术存在瓶颈 (Scale-up 架构决定的) 、扩展成本无法控制。 可用性问题:潜在的单点故障,数据恢复困难,代价高。 应用目标差异:主要面临运营商、金融行业的OLTP 应用、很少针对 海量的流数据,或者非结构化数据进行设计和优化。 异构设备繁杂:不同时期、不同公司、不同操作系统的异构设备纷繁复 杂,无法整合,资源利用率极低。 分布式文件系统主要为解决以上问题而出现的一种新型大规模数据存储技术架 构。主要为非结构化数据 (视频 / 文件/ 文档/ 图

15、像/ 音频等非结构化数据) 提 供海量的存 储平台,以集群的方式提供线性横向扩展能力。 分布式文件系统是一种构建于通用x86 部件之上的高可用、 高可靠、高可扩展的 XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 11 新型分布式文件系统。 应用分布式文件系统, 用户可以采用廉价可靠的通用服务器、 SATA/SAS 硬盘以及以太网络来构建媲美企业级存储产品的存储系统。 (2)分布式文件系统应对的数据特性和访问特性: 数据量巨大,数百TB 或 PB 级,增长迅速; 类型多样化,包括图像、文本、语音、视频等文件数据; 按时间有序生成,数据均带有时间标志; 前端数据写入速度很高,每秒

16、钟写入数据可达几万甚至几十万条记录 或者上 GB 量数据; 更新操作极少:追加方式写入,一旦写入,几乎没有数据修改,查询 涉及大量的磁盘读操作,查询处理产生大量的临时结果,不同类型的 数据存在联合分析查询; 分布式文件系统的基本原理是采用集群方式来整合物理上独立的多个存储资源, 以软件方式提供单一的名字空间; 采用多副本的方式保证数据的高可用性,任意单一节 点失效均不会导致数据丢失和数据服务的正常运行;同时,分布式文件系统通过良好设 计的系统结构和数据分布策略, 可保证系统性能的高可扩展性,并支持存储容量 / 性能的 在线扩展。 相比较于DAS(直连存储) 、SAN(存储区域网络)和NAS(网

17、络存储) , 应用 分布式文件系统构建的网络存储系统更像是一个NAS,提供类似于传统NAS 的文件级 访问接口( SAN 和 DAS 都是块设备级别的访问接口)。 XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 12 (3)分布式文件系统与传统NAS/SAN 设备的比较: 比较项高端 NAS FC-SAN 分布式文件系统 性能一般双端口,性能受机头 影响,难以扩展,出口带 宽是瓶颈 一般双端口,性能受 机头影响, 难以扩展, IOPS 较好 性能随节点数的增加成线 性增长 扩展能力性能及容量无法扩展,或 者有限扩展 能较好扩展,但成本 高昂 性能及容量按需扩展,动 态均衡 可用

18、性RAID 方式保护,双机保 护,停机 RAID Rebuid , 耗 时 RAID 方式保护,双机 保护, 停 机 RAID Rebuid ,耗时 基于灵活的多副本机制, 自动检测,自动故障恢复, 无需停机 数据管理企业级功能需要单独购买企业级功能需要单 独 购买(还需要单独的 文件系统,100 多万一 套) 内嵌多种企业级应用:快 照、镜像、回收站 成本专有的硬件平台,软件拥 有成本高,扩展成本高 专有的硬件平台,软 件拥有成本高,扩展 成本高 开发通用的硬件平台,一 体化的软件,成本低,扩 展成本低 可维护性专门的技术支持服务,需 要培训 结构异常复杂,需要 大量培训, 厂商服务 昂贵

19、内嵌多种自动化的故障检 测和恢复功能,国内开发, 技术支持快速 用户使用分布式文件系统如同使用本地文件系统。所不同的是,传统NAS 通常 以单一节点的方式实现, 容量和性能的扩展能力有限, 易于成为性能瓶颈和单一故障点。 而分布式文件系统则有多个节点集合地提供服务,由于其结构特征,分布式文件系统的 性能和容量均可在线线性扩展, 并且系统内不存在单一故障点。对比参看下面两幅示意 图: XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 13 传统存储架构图 分布式文件系统架构图 XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 14 分布式文件系统的设计应用特别适合海量

20、非结构化数据存储,大量客户端并发的I/O 密集型应用。目前,分布式文件系统已经被应用于政府、医疗影像、勘查数据计算、视 频服务以及动画制作等领域。这些领域的数据访问特征均为:数据量巨大, I/O 吞吐率 高,数据增长迅速以及数据可用性要求高。经过长时间的实际生产环境使用,分布式文 件系统已被证明是该类型应用的有效解决方案。 布式文件系统的服务器端程序运行于Linux x64 系统之上,支持多种Linux64 位发行 版,包括Redhat 、CentOS 等。分布式文件系统客户端则支持Linux 和Windows,同时 分布式文件系统还可以通过第三方软件输出CIFS 和 NFS 接口,可以兼容大

21、多数应 用。 (4)分布式文件系统的核心技术及特征: 扩展性和高性能:分布式文件系统利用双重特性来提供几TB 至数PB 的 高扩展存储解决方案。 Scale-Out 架构允许通过简单地增加资源来提高存储 容量和性能,磁盘、计算和I/O 资源都可以独立增加,支持10GbE 和 InfiniBand 等高速网络互联。分布式文件系统弹性哈希(Elastic Hash )解除 了分布式文件系统对元数据服务器的需求,消除了单点故障和性能瓶颈, 真正实现了并行化数据访问。 高可用性:分布式文件系统可以对文件进行自动复制,如镜像或多次复 制,从而确保数据总是可以访问,甚至是在硬件故障的情况下也能正常 访问。

22、自我修复功能能够把数据恢复到正确的状态,而且修复是以增量 的方式在后台执行,几乎不会产生性能负载。分布式文件系统没有设计 自己的私有数据文件格式,而是采用操作系统中主流标准的磁盘文件系 统(如 XFS/EXT4/ZFS )来存储文件,因此数据可以使用各种标准工具进 XXX大数据库中心数据库投资商和企业数据采集处理项目-技术方案 15 行复制和访问。 全局统一命名空间:全局统一命名空间将磁盘和内存资源聚集成一个单 一的虚拟存储池,对上层用户和应用屏蔽了底层的物理硬件。存储资源 可以根据需要在虚拟存储池中进行弹性扩展,比如扩容或收缩。当存储 虚拟机映像时,存储的虚拟映像文件没有数量限制,成千虚拟机

23、均通过 单一挂载点进行数据共享。虚拟机I/O 可在命名空间内的所有服务器上 自动进行负载均衡,消除了SAN 环境中经常发生的访问热点和性能瓶颈 问题。 弹性哈希算法:分布式文件系统采用弹性哈希算法在存储池中定位数 据 , 而 不 是 采 用 集 中 式 或 分 布 式 元 数 据 服 务 器 索 引 。 在 其 他 的 Scale-Out 存储系统中,元数据服务器通常会导致I/O 性能瓶颈和单点故 障问题。分布式文件系统中,所有在Scale-Out 存储配置中的存储系统都 可以智能地定位任意数据分片,不需要查看索引或者向其他服务器查 询。这种设计机制完全并行化了数据访问,实现了真正的线性性能扩 展。 弹性卷管理:数据储存在逻辑卷中,逻辑卷可以从虚拟化的物理存,不会导 致应用中断。逻辑卷可以在所有配置服务器中增长和缩减,可以在不同服务 器迁移进行容量均衡,或者增加和移除系统,这些操作都可在线进行。文 件系统配置更改也可以实时在线进行并应用,从而可以适应工作负载条件 变化或在线性能调优。 完全软件实现( Software Only):分布式文件系统认为存储是软件问题,不

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1