轨道交通线网云平台系统用户需求书-中心部分云平台功能及软件.docx

上传人:极速器 文档编号:596129 上传时间:2025-09-01 格式:DOCX 页数:52 大小:58.78KB
下载 相关 举报
轨道交通线网云平台系统用户需求书-中心部分云平台功能及软件.docx_第1页
第1页 / 共52页
轨道交通线网云平台系统用户需求书-中心部分云平台功能及软件.docx_第2页
第2页 / 共52页
轨道交通线网云平台系统用户需求书-中心部分云平台功能及软件.docx_第3页
第3页 / 共52页
轨道交通线网云平台系统用户需求书-中心部分云平台功能及软件.docx_第4页
第4页 / 共52页
轨道交通线网云平台系统用户需求书-中心部分云平台功能及软件.docx_第5页
第5页 / 共52页
点击查看更多>>
资源描述

1、轨道交通线网云平台系统用户需求书中心部分云平台功能及软件1建设内容12通用要求12. 1软件部署要求13. 2可靠性要求13云平台功能要求24. 1IaaS功能要求23.1.1IaaS基本服务要求23. 2PaaS功能需求53.2 .1应用性能管理服务53.3 .2应用运维管理服务53.3灾备要求53.3.1容灾服务53.3.2备份服务53.4云管平台管理要求53.4.1云运维服务53.4.2云运营服务53.4.3多域多中心管理功能63.5数据备份要求63. 6业务系统容灾需求63.7云平台软件版本安全性要求73.8云平台网络管理要求74综合运管平台74. 1概述74. 2总体要求74. 3云

2、平台管理84.3.1运营管理84.3.2云平台管理软件要求114.4.1功能124.4.2要求224.5网络管理264.5.1功能264.5.2要求284.5.3控制器软件要求294.6网络安全管理304.7动环监控管理315大数据平台建设要求315.1 本期建设内容315.1.1 大数据平台扩容315.1.2数据仓库扩容325.1.3数据采集325.1.4数据治理335.1.5数据应用341建设内容本分册包含云平台功能要求、综合运管平台功能、大数据平台功能相关要求,本期工程建设的云管平台、综合运管平台需在一期工程建设的各平台软件基础上进行扩容接入,大数据平台根据6号线、Sl线厂商实际情况,完

3、成专业厂商数据对接并完成数据治理工作。综合运管平台技术要求包括总体要求、云平台管理、运维管理、网络管理、网络安全管理、动环监控管理等。投标人须对接线网云平台一期工程中的综合运管平台,并根据招标人对综合运管平台接口要求完成综合运管平台及相关业务建设,投标人应承诺充分对接线网云平台一期工程各参建单位,相关接口费用及软件扩容费用包含在投标总价中。2通用要求2.1 软件部署要求在主中心、灾备中心和测试中心机房统一部署安全生产业务、内部管理业务、外部服务业务所需的计算、存储、网络、安全资源,并将各系统服务功能上移至云平台虚拟资源中。将安全生产系统传统架构下中心级、站段级资源云化集中部署,简化数据业务处理

4、流程,实现资源有效利用、运维集中化管理。主中心作为轨道交通运营生产系统的主服务中心,应遵循业务系统融合承载、独立运维的原则,云平台运维与业务系统运维管理独立实现。灾备中心在正常情况下,作为主中心各业务系统的应用级(根据业务需求)及数据级备份中心;在主中心出现异常情况时,可对各业务系统的数据进行集中收集、处理与存储以及保障部分系统相关业务(根据业务需求)的连续性等工作。测试中心对各业务系统进行功能性验证测试。在测试中心的软件体系中可以模拟主中心、灾备中心、站段架构体系下的关键性软件功能。站段云节点设置在云化线路各车站、车辆段、停车场内,保障主、备中心均发生故障或离线时各站段业务正常运行,站段云节

5、点须纳入云管理平台统一管理。2.2 可靠性要求云平台软件需采用全系统冗余架构,确保无单点故障,保障业务连续运行。支持计划内的升级、扩容等活动时,业务无中断;提供故障的快速检测能力,检测到故障后自动隔离和恢复,将故障引起的停机时间降至最少(具体时间标准在设计联络阶段确定)。提供黑匣子、日志、告警监控等能力,帮助维护人员快速定位问题、解决问题。云平台软件需采用元数据及业务数据的冗余保存,支持内部扫描数据和自动修复有损数据。对管理数据和业务数据提供多种备份能力,支持在故障情况下的快速恢复,保障数据不丢失。云平台提供时钟同步功能,可以保证所有部件(管理节点,计算节点,存储节点等)时间一致,可保证全局时

6、间统一且精准,方便系统维护以及各个网元的正常消息交互。云平台可靠性具体包括: 云平台系统可靠性 计算虚拟化可靠性 存储虚拟化可靠性网络虚拟化可靠性,云平台管理系统可靠性X基础设施可靠性3云平台功能要求3.1 IaaS功能要求3.1.1 IaaS基本服务要求IaaS层由逻辑化/池化后的计算、存储、网络、安全等软硬件资源池及封装后的多种IaaS服务组成,采用软SDN架构进行云资源的快速发放,这些资源可直接被云服务用户使用,也可组合支撑更复杂的业务场景,用户可在IaaS服务基础上部署和运行操作系统和各种应用软件。3.1.1.1 计算资源服务要求1)弹性云服务可以在几分钟之内迅速地获得虚拟机设施,并且

7、这些基础设施是弹性的,可以根据需求进行扩展和收缩。具备主机快照,虚拟网卡,密钥对,弹性伸缩等功能。2)镜像服务镜像是虚拟机实例可选择的运行环境模板,一般包括操作系统和预装的软件(可包括公共应用软件以及用户私有应用软件)。镜像服务提供对公共镜像和私有镜像的自助管理能力。3)裸金属服务提供了一种裸金属服务器的使用形态,裸金属服务器上不运行虚拟化层,直接安装用户OS。对于不适合VM部署的应用可以使用裸金属服务。4) GPU服务提供图形化计算能力,满足业务图形化计算的需求。4.1.1 .2存储资源服务要求D块存储可弹性扩展的虚拟块存储设备。可以在线进行操作,使用方式与传统服务器硬盘完全一致,可以对挂载

8、到云服务器上的云硬盘做格式化、创建文件系统等操作,并对数据持久化存储。2)对象存储基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。4.1.2 .3网络资源服务要求云平台网络资源服务需要支持云内组播能力,组播业务迁移上云;支持云间组播能力,组播源/点播者在云外,业务持续访问。PlS中心、车站服务器部署在云内,车载PIS服务器部署在列车上,PIS中心服务器需要向车站PlS和车载PlS发视频组播。PlS系统通过组播模式发送车辆状态信息。云平台网络需要支持组播高级网络服务实现。提供云内二层、三层组播能力,提供组播源、点播者在云内、云外等多种位置场景组合,需支持组播协议服务化

9、能力。1)虚拟私有云通过逻辑方式进行网络隔离,提供安全、隔离的网络环境,提供与传统网络无差别的虚拟网络。具备安全组等基本能力。2)弹性公网IP可以独立申请和持有的公网IP地址资源,通过绑定ElP到云上的资源,云上的资源就可以与Internet上的资源进行通信。弹性公网IP信息与查询:弹性公网IP管理提供用户对弹性公网IP的管理,支持通过多种条件筛选弹性公网IP,查看弹性公网IP信息。弹性公网IP生命周期管理:支持申请弹性公网IP、释放弹性公网IP、更改弹性公网IP带宽大小。弹性公网IP绑定与解绑:支持将弹性公网IP绑定/解绑弹性公网子网。3)虚拟专有网络虚拟专用网络,用于分支机构和虚拟私有云之

10、间建立一条安全加密的通信隧道,把企业已有数据中心和云上的网络打通。4)负载均衡服务将访问流量根据转发策略分发到后端多台弹性云服务器的流量分发控制服务。弹性负载均衡可以通过流量分发扩展应用系统对外的服务能力,实现更高水平的应用程序容错性能。弹性负载均衡可以消除单点故障,提高整个系统的可用性。5) NAT网关服务能够为虚拟私有云内的云主机(弹性云服务器、裸金属服务器)提供网络地址转换服务,使多个云主机可以共享弹性公网IP访问Internet或使云主机提供互联网服务。6)云专线服务提供云上子网和云下子网直接路由互访,不需要做地址转换,网络带宽时延有保障,配置和维护简单。7)VPC对等连接服务提供云上

11、不同虚拟私有云内云主机互访的能力。8)桥接服务提供云内、云下二层或三层互访的能力,当云下的数据库需要和云内的应用进行二层或三层通信时选配。扩展支持组播能力,满足线网云平台组播需求。9)云连接服务可通过云专线、VPN实现类似跨region通信功能。3.2PaaS功能需求3.2.1应用性能管理服务能够帮助用户快速发现应用程序的性能瓶颈,以及故障根源的快速定位。并且会采用大数据技术帮助企业在性能优化上给出合理建议,优化应用程序运行,发现编程问题等。3.2.2应用运维管理服务云上应用的一站式立体化运维管理平台,实时监控用户的应用及相关云资源,采集并关联资源的各项指标、日志及事件等数据共同分析应用健康状

12、态,提供灵活的告警及丰富的数据可视化功能,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况。可作为技术储备。3.3灾备要求3.3.1容灾服务通过容灾服务,应对火灾、地震等重大自然灾害的情况下,能够实现云数据中心多租户的云服务器数据安全保护和业务连续性容灾能力。3.3.2备份服务通过备份服务,能够在虚拟机、数据库、文件系统等发生人为误操作、病毒感染或其他逻辑故障情况下,通过备份副本恢复到故障前的时间点。3.4云管平台管理要求云管平台可以对数据中心的资源进行统一管理、控制,是面向城轨业务人员以及运营运维人员的管理使用界面,应提供对云平台所管理的资源进行组织、划分、申请、使用的资源管控系

13、统,以及对这些资源进行运维监控的管理系统。3.4.1云运维服务提供标准化、自动化、智能化的运维能力,方便运维人员及时掌握系统运行状况,并提供故障诊断以及闭环的能力。实现多数据中心、多资源池、多种云服务的统一管理,提供包含资源管理、集中监控、可视化、运维分析、安装部署等功能模块,支撑日常运维、系统变更、运营分析等运维业务场景。3.4.2云运营服务作为云资源、云服务管理中心,支持多租户模式,租户自助申请服务、管理资源,支持服务流程合规检查(包括但不限于提供服务流程管理能力,可以通过图形化按需自定义服务流程,流程节点,节点的表单定义,指定各节点的审批人,灵活适配不同的业务审批流程。提供流程处理的所有

14、记录,帮助招标人做到流程合规等),提升运营效率。1.1 4.3多域多中心管理功能云管平台应支持对实现多域/多中心的统一管理。云管平台应具有资源抽象和集成能力,可以对云上的资源/配额/组织/流程/工单/计费/告警/报表/信息进行纳管,通过集成底层异构云平台的服务,可以为用户提供从IaaS到SaaS等多层次的一体化体验,同时通过完备的资源管理和数据分析能力,实现业务在多域/多中心平台的无缝连接。1.2 5数据备份要求在主中心针对各个业务网络的核心、重要业务系统进行备份操作,备份系统应采用成熟、稳定、易扩展的方案进行构建,对于核心业务系统应做到全量备份应在一天内完成,备份时间窗口不应大于4小时,备份

15、系统容量应满足各个业务系统的要求。通过备份系统的建设,将实现业务数据的高可用性以及数据资产的安全性。数据备份周期及数据量可参考线网云平台一期工程的标准进行配置,具体在设计联络阶段确定。3.6 业务系统容灾需求对核心、重要业务系统采用跨机房的业务系统容灾,做到主、备中心机房任一业务系统不可用时,可以切换到另一个中心正常启动运行,以保障业务层面服务持续性和高可靠性。云上多个业务系统需要做到业务系统容灾或数据级备份,具体分为安全生产网中6号线及Sl线中央级ATS、综合监控、AFC系统具备系统容灾能力,其他系统均具备数据级备份能力。应用级灾备双活模式下,需能实现业务永续。满足7X24小时业务连续运行;

16、RPO=O.RTo二数分钟;维护过程业务不中断。应用级灾备双活模式下,需能实现高效便捷。支持业务双活访问、接管和兼容各业务系统软件。应用级灾备双活模式下,云厂商提供基础资源,应用厂商实现应用的双活服务。应用级灾备热备模式下,需能实现业务中断后快速启用。RPO小于10秒。3.7 云平台软件版本安全性要求云平台软件版本必须使用安全扫描工具进行扫描,扫描工具包括但不限于BlackDuck,Coverity,NSFocus,Nessus,WebInspect,Cybervision,McaFee,Checkmarx,AWVS,SecScan,RSAS,SeCVAS中的至少3款工具。扫描通过后才能发布,

17、确保版本不能有任何中、高风险级别漏洞。3.8 云平台网络管理要求云平台网络管理提供对云平台内服务器、存储、网络设备的资源管理、统一拓扑、集中告警、性能监控等功能,同时提供告警、资源、拓扑、性能等北向接口,降低运维成本,提升运维效率。4综合运管平台1.1 概述本项目的综合运管平台在一期综合运管平台的基础上进行扩容接入,实现轨道线网云平台二期资源的综合管理,其功能要求包括但不限于:云平台管理、运维管理、云桌面管理、网络管理、灾备管理、大数据平台管理、网络安全管理、动环监控管理等,其中网络安全管理、动环监控管理相关技术要求详见各自分册。可支持第三方大数据平台提供的开放接口,支持大数据服务,用户可通过

18、综合运管平台管理大数据服务,可以按照业务需求,申请大数据服务,并可以指定大数据服务的资源配额,同时支持通过运管界面维护大数据服务,可以自助修改计算存储配额以及数据权限,并且用户可以查看服务实例CPU使用率、磁盘使用率、内存使用率、数据权限等情况。综合运管平台为订制开发项目,投标人应结合各模块功能整合,不允许界面集成、模块跳转等开发技术,具体要求待设计联络阶段明确。本项目的综合运管平台与一期综合运管平台的对接费用包含在投标总价中。1.2 总体要求综合运管平台支持多中心资源管理的统一平台,有效管理在云平台主中心、云平台灾备中心、各站段的云节点设备,其功能包括云平台管理、运维、安全、网络、动环等功能

19、形成统一云管理平台、统一云服务、统一云运营、统一云认证、统一云运维,并将从以下几个层面提升运管的整体效能:资源层面,实现无缝管理,应支持异构云的资源管理。业务层面,实现统一管理。资源和账号的开通,资源控制、监控和预警都是在资源管理平台中统一的无差异化管理。运营层面,实现权限管理。能进行权限管理和资源分配、资源管理和机构管理。扩展层面,实现接口管理。虚拟资源和业务资源管控可通过接口管理APl实现,实现远程开关机。视角层面,实现多种资源管理。管理包括云平台、运维、安全、网络、动环。1.3 云平台管理投标人提供完善的云平台管理设计实施方案,内容包括但不限于以下内容:4. 3.1运营管理5. 3.1

20、1功能1)多资源池统一管理多资源池统一管理:支持通过云管平台同时接入多个分布在不同网域、地域的资源池;资源分区管理:每个资源池下包括一个或多个可用分区,支持可用分区与可用分区之间在设计上相互独立,即分区间有独立的供电、独立的物理网络设备等,确保一个可用分区出现问题时也不会影响另外的可用分区;基于SLA(ServiceLevelAgreement,服务等级协议)的资源调度:支持一个可用分区包含多种SLA等级的集群、存储池,业务申请云主机、云磁盘时可以选择SLA等级;可用分区下可以包含不同存储介质(SATA、SAS、SSD)的存储池,支持不同业务应用可申请指定存储介质级别的磁盘;资源池容量管理:

21、支持对整个数据中心的计算、存储、网络资源容量情况进行监控,支持资源总量、已经分配的资源量、剩余资源量等信息的统计,支持按照资源类型等维度进行统计。2)用户管理VDC管理:系统管理员创建一个VDC,指定配额,然后分配给VDC内业务系统使用,业务系统可以基于VDC进行自助服务申请和资源管理,系统管理员和业务系统之间通过VDC配额使用量进行计量结算;用户管理:系统提供用户的增、删(停用、启用)、改,查功能,可以修改用户的密码、电话,E-mailE-mail和描述信息,系统管理员负责组织管理员、VDC管理员账号的管理,VDC管理员负责VDC业务用户账号的管理;角色管理:支持灵活配置管理员角色,包括但不

22、限于:X系统管理员:负责资源池的建设、维护、资源分配;,业务管理员:包括组织管理/VDC管理,组织/VDC配额分配,全局用户管理,全局/VDC容量监控等;,VDC管理员:负责VDC业务管理。包括VDC的申请、延期、释放;VDC内业务用户的管理等;业务用户管理:业务的使用者。主要进行服务的申请、使用。安全策略管理:支持定义安全相关策略,如账户锁定策略、密码规则、登陆超时时间等,保证系统的安全性。3)服务管理服务定义:支持系统管理员自定义个性化服务产品,如不同类型的云主机服务;可定义的参数包括:服务的名称、图标、服务参数(如虚拟机的规格、操作系统类型、SLA标签)等,方便用户申请服务;服务支持定义

23、白名单,通过白名单控制该目录给特定的VDC使用;服务管理:针对服务,提供相应的操作,包括服务的申请、变更、审批、释放、维护,以及订单管理。4)计量计费管理云管平台支持提供基于配额总量和配额使用量的计量。配额总量计量用在资源预分配场景,即资源分配出去之后,不需要统计具体使用量;配额使用量计量用在需要按使用量结算的场景;支持系统管理员检查各业务系统分配资源的使用情况,确认业务系统是否存在资源过剩的问题;云管平台支持提供计量详情清单,清单中记录每一个服务实例申请的时间和申请量,做到资源申请有据可查。云管平台支持按组织、VPC等多个维度进行成本分析。并提供运营成本账单统计功能。私有云计量数据按产品不同

24、设置不同的费率及计费逻辑功能,作为可选项,由投标人在投标时自行承诺是否支持。4.3.L2要求运营管理要求如下:支持用户管理及多种认证方式登录,可以支持用户创建、删除、修改、查询、禁用、重置密码等操作;支持为用户指派/取消指派角色权限,业务用户忘记密码后,支持用户在自助Portal通过注册时使用的邮箱或者手机来自助重置密码。支持服务模板定义,可以将各类业务定义为用户可申请的服务。在服务定义时,管理员可以指定服务的名称、描述等基本信息,同时还支持灵活的配置服务参数的可修改性,例如在定义云主机服务模板时可以指定业务用户申请该服务时是自己指定虚拟机的规格(多少CPU、内存、存储)还是固定该虚拟机规格(

25、多少CPU、内存、存储)。如果定义了一个固定规格,那么用户申请该虚拟机时只能使用该规格;如果定义为用户自定义,那么用户在申请时可以自由选择虚拟机的规格。并且支持服务与审批流程绑定。可以针对不同的VDC配置服务可见性,可以设置所提供的服务哪些VDC可见,哪些VDC不可见。支持VDC阈值告警能力。支持管理员按照不同组织分别定义组织内配额阈值和性能阈值,配额阈值即可以定义每一类服务的资源分配情况达到不同的设定标准时进行不同级别的告警,性能阈值即可以定义每一类服务的使用情况达到不同设定标准时进行不同级别的告警,并支持配置满足条件的告警通知能力,可以通过即时通信软件(企业微信、钉钉等)、邮件、短信加AP

26、P方式发送告警通知。支持告警统一管理视图,可以查看系统中物理、虚拟资源的告警(包括但不限于服务器、存储、网络设备、虚拟机等);并支持对告警的压缩、自愈、清除、确认/反确认、指派告警处理人、调整告警级别、设置告警声音等基本操作,支持用户定义将不同的告警类型通过即时通信软件(企业微信、钉钉等)、短信或者邮件方式发送到不同的用户或者用户组,支持同时定义多组告警转发规则,可以同时定义多种不同类型的告警按照自定义的告警内容模板发送给不同的人处理。支持记录与查看审计日志及邮件日志,可根据操作人、日期、操作类型等进行查询及下载。支持多种通知触达方式,如即时通信软件(企业微信、钉钉等)、短信、邮件通知等。支持

27、发送平台内通知公告,通知范围可根据业务需求限定为全部租户或者指定租户。4.3.2云平台管理软件要求对于云平台管理平台,本期工程按照新增资源扩容既有云平台管理平台license或新建一套云平台管理平台并对本期所招资源进行纳管考虑,云平台管理软件应支持纳管主流厂商服务器、存储、网络等设备。云管理平台软件配置、服务能力及整体要求如下:项目功能要求支持虚拟机服务,支持用户通过自助服务界面同时申请一台或多台不同规格的虚拟机,用户可以自由选择虚拟机所在物理资源的位置,CPU、内存、磁盘规格,并可以在申请时为虚拟机增加多张网卡和多块磁盘,设置磁盘容量及网卡使用的网络,以保证用户获取到的虚拟机不需要再进行重复

28、编辑,用户获取到虚拟机后,可以进行自助管理,可以对虚拟机执行常见的开机、关机、重启、删除、远程登录等操作,用户可以根据虚拟机名称、IP、ID、运行状态等快速查找、过滤虚拟机,也可以支持用户自定义虚拟机标签来快速定位虚拟机。支持用户创建虚拟私有云(VPC),每套隔离的虚拟网络环境可以包含一套虚拟的出口路由器和若干虚拟防火墙以及子网网络。用户可以完全掌控自己网络环境,包括支持自助创建子网,指定子网网段、掩码,子网服务能力要求使用的DNS。支持安全组服务,用户可以自助配置安全组规则,支持TCP、UDP.ICMP等协议,可以指定按当前安全组出/入方向上过滤的对象,过滤对象可以为IP段(可以指定TCP/

29、UDP的源/目的IP及端口)或者其它安全组。支持虚拟负载均衡服务,用户可以自助申请负载均衡器,以及配置负载均衡器的实地址(SerVerIP)池、虚地址(VSIP)、绑定的公网IP等,虚拟负载均衡支持配置四层、七层监听策略以及健康检查策略等支持云硬盘服务,用户可以自助进行云硬盘的申请、挂载、卸载、删除、创建快照、迁移(变更磁盘类型)等操作,创建的云硬盘支持挂载给虚拟机使用。支持备份服务,用户可以自助申请对虚拟机磁盘或者虚拟机进行备份,支持用户自助配置备份策略,包括指定备份周期、全备/增备策略、备份数据进行远端备份的周期等,用户可以选择特定策略进行手动备份,或者按照策略规则自动备份。发现数据丢失后

30、用户可以在云平台界面自助进行数据恢复(恢复到原位置或者新位置),并支持对备份数据的管理,如搜索、删除已有备份数据等整体要求云管理面向业务用户提供自服务Portal,业务用户通过自服务Portal申请需要的各项云服务;面向管理员提供云运营管理和云运维管理能力。云运营管理实现对云服务的管理功能;云运维管理实现对云的监控功能。PortaI提供可配置的内容管理能力,图片替换、一键置灰等能力提供管理系统的安全保护,包括但不限于管理系统禁止rt远程登录、防爆破、防注入、密码加密存储,默认使用HTTPS方式访问管理系统等(如有费用产生,由投标人承担相关费用)4.4运维管理4.4.1功能4.4.1.1资源统

31、一监控管理1)网络监视管理应具备针对于路由器、交换机等网络设备的监视功能。需要能根据被管理对象的类型及其属性,采集各类设备的性能数据。并通过拓扑管理显示资源以及资源之间的拓扑关系,关联呈现资源的告警、性能、配置等信息。通过性能管理实现对采集数据的性能分析。应具备监视主流的网络设备、安全设备的功能。通过网络监视,实现对网络的故障告警,同时监视网络的健康状态与运行性能指标。应具备多厂商网络设备的纳管的功能,对设备状态、网络拓扑、设备的基本信息、接口信息、性能数据和告警信息等进行综合管理。2)服务器监控管理硬件监控:通过带外监控的方式对服务器中的风扇、温度、电源、CPU、内存、网卡、硬盘存储、固件、

32、传感器、FRU等指标参数进行监控,可通过概览查看总体情况,也可以打开每个子项查看详情。该功能可帮助实现硬件自动监控,降低人工巡检工作量等功能。支持对主流厂商的服务器进行监控。支持的协议包括:IPMI、SNMP、RESTfulo3)存储设备监控管理存储设备监视:对存储中的风扇、温度、电源、CPU、内存、硬盘空间等指标参数进行监控,可查看每个子项详情。该功能可帮助实现存储自动监控,可用空间监测等功能。4)虚拟化监控管理支持VMWare,HyPeLV和KVM等主流虚拟化环境管理,包括虚拟网络视图展示、虚拟网络拓扑展示、性能监控和告警展示等。提供结构化视图,层次化的展示出物理服务器(比如ESX/ESX

33、iServer).虚拟交换机、虚拟机之间的逻辑关系。包括物理服务器的状态、拓扑定位、品牌、型号、内存、CPU、隶属的部门、管理端等信息;虚拟交换机下连的虚拟机、状态、IP地址及可执行的操作等。5)云环境监控管理支持云环境下的运维监控管理,支持业务用户VPC内云业务的监控。提供双视角监控模式,管理员视角可对云环境的基础资源的统一管理;业务用户视角提供多用户监控模式,不同的业务用户VPC资源隔离,用户可管理自己VPC内业务应用资源,添加、修改、监控业务用户应用,查看本用户内的业务状态。6)服务健康管理提供网络性能诊断和监测工具,通过主动在多个站点或链路之间发送数据包来实现对网络性能的度量,通过时延

34、抖动、丢包、吞吐量等指标来评估网络链路质量;将网络中的告警(TraP)、性能、链路质量、网络业务流量等关键数据进行提炼,形成预定义的设备监控、接口监控、NQA链路、NTA流量分析、应用管理等KPI,并提供扩展机制,实现对网络各角度性能数据的可度量定义;通过服务列表视图可以实时监视服务可用性、健康状况,同时提供当天、本周、本月、本年按时间分布的健康状况报告,根据报告可以清晰确定影响服务运行质量的KQl和KPI,以便采取措施,更好的保障服务运行质量。7)网络流量管理网络设备流量统计:提供对如NetStream、NetFlowSfIOW等技术接口的网络设备,负责对设备各个端口进出的网络报文进行流分

35、类统计,然后打包输出;日志采集和统计分析:提供对网络设备进行流量分析,日志采集器过滤和统计日志报文,形成日志输出;流量分析报表:提供一系列预置的流量、带宽报表,所有报表均可以灵活定制过滤条件(包括应用类别、源IP、目的IP等),在预定义报表中按照定制的过滤条件显示特定应用的流量趋势或特定节点的流量明细信息。8)集中性能管理对集中管理的各种IT资源的性能状态进行集中处理与展示。平台具有进行任务化的性能数据采集功能,管理员可以灵活设定需要采集的设备指标、采集周期、采集方式等参数。对于主机管理,平台检测到某个操作系统的CPU使用率、内存使用率、硬盘空间使用率等性能指标超过特定阈值时,会自动生成性能事

36、件。对于数据库管理,平台检测到某个数据库系统的表空间使用率、连接数使用率等性能指标超过特定阈值时,会自动生成性能事件。对于中间件管理,本平台检测到某个应用系统的会话数、JDBC连接数、事务数、事务的平均持续时间等性能指标超过特定阈值时,会自动生成性能事件。9)集中告警管理对IT资源各种事件进行集中告警管理,实现包括告警阈值管理、告警通知管理、故障根源分析、告警统计管理等,支持即时通信软件(企业微信、钉钉等)、邮件、短信加APP方式告警等多种方式。动态阈值管理:对性能数据进行智能分析结合历史数据与昨天数据进行对比分析异常,提升异常捕捉的效率。此外,也支持对结果进行手工校正,通过人机协作提高异常检

37、测的准确率。当检测到指标异常后,时序异常检测模块会记录异常时刻点的指标数据,同时支持上报告警到告警模块来进行后续告警处理流程。可通过计算过去一段时间的监控值(默认至少5周)来自动确定阈值,例如:每周一早上8点采集的设备的CPU利用率应该是处于一个平稳的区间内,根据采集一个阶段的平均值来确定阈值区间(默认上下的20%),后续超出这个区间的为异常值,触发告警。10)报表管理提供可视化的报表设计环境,用户可以拖放报表的组成元素,如报表标题、数据库字段等进行报表生成,内置图形类型包含常用的柱状图、线状图、条形图、面积图、饼图、点图、仪表盘、走势图等主流及非主流的展示形式;样式包括:2d、3d、Exce

38、lweb风格等;支持基于页面的格式和基于记录的格式,包括:RPT、Word(RTF)Excel、HTML、PDF、XML.CSV、TXT等,可以通过ODBC格式将报表数据导出到任何与ODBC兼容的数据库;对报表模板的管理支持发布、修改、删除。用已发布的报表模板可以定制天、周、月、季度、半年、年报表,可以设定周期性报表的开始时间、失效时间、报表生成格式,以及定时生成报表后E-mail到指定邮箱。特别的,用户可以将自身的组织名称和Logo融入到发布的报表中。4.4.1.2业务服务管理1)业务监控管理从业务视角来管理业务系统,对服务端IT基础架构数据进行采集、处理,并从不同的场景监控诊断故障,场景以

39、拓扑图方式承载,主要表现形式包括对象拓扑、场景拓扑、业务全景、应用全景与容量预测,帮助用户从IT基础架构运维提升为业务可视化运维。对象拓扑:按对象的关系展示树状拓扑,系统自动根据当前对象的层级关系,联动出对象关联图及其告警,监控指标、辅助分析关联告警、问题定界。若对象有告警则显示告警级别最高的颜色,显示告警数量,通过对象显示告警详情、对象属性、关联策略、层级关系便于运维人员进行问题分析。场景拓扑:运维人员可设计自己的监控场景,系统根据监控场景联动出被监控对象的告警及监控策略,以自定义场景的方式展示关联图,辅助问题定界。业务全景:基于业务重要级别,设置业务的监控角度全盘来感知业务质量。包括对业务

40、总数、正常业务数、异常业务数的展示,每个业务都有具体的业务数据链与之对应,支持查看具体数据链详情。容量预测:根据资源的历史状况自动预测其未来走势,针对云平台场景的总体存储资源、各个存储池的存储资源场景,对其总容量和使用容量进行分析、评估和趋势预测协助运维人员提前做好规划。2)用户体验管理提供数据交互顺序展示业务数据链数据,可以查看对应的监控告警信息及部署主机,跳转主机后关联出部署在主机上的所有组件状态,并且告警可与指标联动,可以直接查看指标看板数据,也可以显示应用的数据接口详情、服务链、接口告警详情进行问题的辅助定位。同时为了操作方便可以把架构拓扑保存为PDF文件或者打印拓扑。另外可以从部署视

41、角展示主机信息及运行在它上面的组件的监控、告警、资源统计信息,辅助运维人员定位分析问题。选择某个数据流,跳转后展示该数据流联动相关的部署链信息,与该业务流无关的部署信息不展示。主机信息包括:主机名、IP、主机配置、操作系统类型、网络区域;组件信息包括:操作系统、数据库、中间件、微服务;统计信息包括:主机、集群、端口、微服务、中间件、数据库个数。4.4.1.3自动化运维管理D健康评估管理面向多厂商主流产品,结合主观评价数据,对运维系统的运维数据、对运维对象的健康状况实时自动感知评估并定时给出健康诊断报告,它可辅助运维管理者全面把握系统健康状态,加速运维问题修复、及时消除隐患,避免业务损失。根据监

42、控告警、效率与体验,关键指标去衡量运维对象的健康分。2)IP地址管理从网络设备获取IP地址信息并进行分析处理和图形化呈现,实现对IP子网和IP地址的录入、分析、增加、修改、删除、查询和审计功能;标记IP地址类型,如服务器、终端、互联、网关等,方便管理员对不同类型地址进行管理。3)配置合规管理针对设备或设备组进行配置综合管理,包括但不限于设备配置数据的增删改查、基线对比、变更恢复、变更审计;同时协助用户进行自身配置知识库积累,如历史重大配置经验、常用配置模板、实践经验积累等。4)网络智能排障全网网络日志采集及分析整理;针对用户场景和告警故障信息,自动关联排障案例及云图排障知识库进行排障分析,提供

43、排障建议;知识库定期更新,并支持用户自定义扩充本地排障知识库。5)软件安装部署管理集中管理软件(包括服务器的操作系统、数据库、中间件、应用软件、补丁等)版本,实现自动化的安装与更新。为运维自动化场景提供常用软件库。结合场景编排,用户可以通过脚本文件、调用软件链接,实现对软件在目标机器上的安装部署。建立软件信息库,集中管理软件介质,可对不同的软件版本进行差异性对比,可基于策略对软件进行安装或升级,包括安装前的准备和安装后的配置操作等,实现一键裸机装机;可批量或定时操作;支持软件版本卸载和回退。6)合规审计自动化依据最佳实践、行业规范和积累的经验等,运维管理系统要保证企业达到审计合规的要求,包括运

44、维平台的监控中心操作日志、监控中心系统日志、资产管理操作日志、配置服务操作日志、流程配置操作日志、自动化操作日志、系统操作日志、系统安全日志、账号管理操作日志等,日志内容要能支撑事后的审计,可配合集团提供基于业界标准的合规性报告,也可根据自定的规范提供审计报告。7)配置文件管理系统提供配置检查功能,通过建立配置检查规则,发起配置检查任务,自动识别配置错误信息,常见场景如:识别配置关系缺失、CI管理员是否存在、IP是否录入等,建立完整、准确的配置库。对配置数据的版本管理,通过时间轴的方式展示历史修订记录,并采用不同颜色显示不同版本的差异项,能非常直观看出修改的数据。支持历史版本的同退,在页面上选

45、择某个日期的版本进行恢复。8)健康巡检自动化日常健康检查需有效确保系统状态、配置规范、版本规范在实际环境中的落实,及时发现和消除故障隐患,防患于未然,从根本上提升系统可靠性。检查内容包括运行状态检查、配置规范检查、软件版本规范检查、补丁规范检查等。9)事件和故障处理自动化对于常见的事件和故障依据经验进行自动化处理,大幅度降低对运维人员的依赖性,提高事件响应速度。结合知识库自动搜集事件的上下文信息,确认事件与预定义处理流程符合;根据预设的策略,调用必要的现有的白动化技术脚本(包括服务器、网络、软件等)自动进行处理;保存完整的处理过程,以备运维人员检查;当处理过程中出现问题时可以及时通知运维人员以

46、等待手工干预。10)变更控制自动化对变更过程进行严格控制,固化变更操作,减少错误和不适当的变更,提高系统的整体可靠性。对于明确的、固化的、可以脚本化执行不会带来二次风险的变更,以流程方式根据业务场景将多个脚本灵活编排成自动化场景,再将自动化场景及被管对象/资源组合为作业并执行,最终以作业方式实现各类运维自动化场景的变更,提高操作的规范性、准确性和安全性,更方便地进行经验沉淀和共享。ID容灾切换自动化容灾切换是运维流程自动化的一个深化应用场景,通过流程编排引擎可以完成系统切换或容灾相关的内容,包括高可用HA切换演练、容灾切换等,将流程标准化,减少手工操作,降低误操作风险。需具备丰富的操作模版,可

47、对主机操作系统、网络设备、存储设备及软件应用提供即拿即用的支持;需具备强大的容灾切换设计能力,提供可视化的流程编辑器,可以通过设计向导、拖拽操作等实现复杂的流程定制;需具备全面的巡检功能,通过平台自带的检查模版,可以实现系统的标准化的部署操作;从而保证灾备切换环境的高可用性,确保灾备切换的成功;需具备统一的操作使用界面,管理员通过统一的平台可以实现复杂的业务系统的灾备切换,如单系统切换、多系统切换、数据中心切换处理等。12)脚本管理可根据日常运维需求来定制化开发脚本内容,支持主流的SheI1、Python、Bat、POWerSheII等脚本语言,自行开发的脚本可作为软件导入服务器自动化介质库,以方便各类脚本的集中管理维护;在介质库中,自动化脚本可以根据脚本使用者的不同,分操作系统服务脚本、系统安全脚本、系统软件脚本、数据库脚本和应用维护脚本等。4.4.1.4配置管理需具备配置管理咨询功能:招标人咨询专家进行现场调研时,协助用户设计面向业务应用的资源配置框架、设计配置资源管理模型、制定配置管理制度。需具备配置建模管理功能:预定义全面的配置项(资产)分类模型,可根据不同企业的管理需求进行自定义裁剪和扩展。需具备配置信息录入功能:支持配置项(资产)信息的导入

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 论文 > 毕业论文

宁ICP备18001539号-1