1、中国联通公司发布2012-XX-XX实施2012-XX-XX发布中国联通云运维管理技术规范China Unicom Cloud Computing Operations Management Technical Specification(OAM)(V1.0)QB/CU XXX-2012中国联通公司企业标准目录目录II前言V中国联通云运维管理技术规范V1.011 范围12 规范性引述文件13 缩略语和术语13.1 缩略语13.2 术语及定义14 云运维管理体系框架24.1 云运维管理的概述24.2 体系框架定位44.3 体系框架设计原则54.4 体系架构管控策略54.5 体系框架总图64.6
2、云运维管理活动概述104.7 云运维管理活动指标体系125 云运维管理架构225.1 云运维管理功能架构225.2 云运维管理与外围系统/平台关系246 运维门户246.1 门户基础服务256.2 工作台296.3 信息发布306.4 综合展现316.5 系统帮助337 运维需求管理337.1 功能定义337.2 功能要求348 运维服务管理358.1 效益提升域358.2 系统保障域538.3 服务管控域649 云资源管理669.1 资源状态管理669.2 资源数据核查679.3 资源数据提供689.4 资源拓扑管理689.5 资源数据模型管理719.6 资源数据维护719.7 资源预警72
3、9.8 资源数据模型7310 资源监控管理8010.1 数据采集技术要求8010.2 告警管理8410.3 服务质量管理9010.4 性能管理9410.5 监控拓扑管理9710.6 资源服务质量监控9710.7 日志管理9810.8 监控指标体系9911 业务监控管理11111.1 业务系统信息管理11111.2 业务拓扑管理11212 云平台策略管理11212.1 资源纳管11212.2 资源分配11312.3 资源调度11412.4 容量管理11612.5 策略操作管理11913 云平台配置管理11913.1 资源配置操作管理11914 统计分析12114.1 功能定义12114.2 功能
4、要求12115 集成管理12215.1 内部接口12215.2 与IaaS平台接口12215.3 与PaaS平台接口13515.4 与SaaS平台接口13915.5 与云运营管理接口14315.6 与其他系统及平台的接口14516 系统自管理14516.1 参数配置14516.2 日志管理14616.3 平台监视14616.4 用户管理14616.5 系统备份和恢复14716.6 版本控制管理147AI.私有云运营管理147A1.1.用户对象147A1.2.运营和运维关系148A1.2.1.定义148A1.2.2.管理对象148A1.3.运营功能148A1.3.1.运营门户149A1.3.2.
5、云用户管理149A1.3.3.云服务管理151A1.3.4.订单管理158A1.3.5.服务等级管理158A1.3.6.计量/计费管理159B1.云平台策略160B1.1弹性伸缩策略160B1.2负载均衡策略161B1.3业务维护策略161前言随着云计算技术的成熟,中国联通基于云计算的内部支撑系统建设逐步推进。基础设施、平台和终端架构向云计算演进,一方面新建系统普遍采用云计算架构,另一方面已有系统也在向云计算平台迁移。为了更好的指导中国联通云化后的IT运维管理,本规范对中国联通未来云化后的IT运维管理提出了全面要求,用于指导中国联通未来云计算运维管理的建设,实现按需的IT服务支撑。本规范遵循中
6、国联通业务需求和云计算技术堆栈相结合的原则,依据中国联通已开展云计算项目、云计算业务发展需求和规划,同时充分调研云计算相关国际标准、行业标准、技术发展现状及竞争对手企标进展情况,在这基础上,结合联通规划,对中国联通云运维管理提出了全面要求,明确了云计算运维管理的范围、用户、对象及体系架构,规定了中国联通云计算运维管理的功能要求、技术要求,以及中国联通云计算运维管理的资源数据模型和监控指标体系等。随着业务需求和技术的不断发展,本标准将不断进行补充和完善。本规范适用于指导中国联通未来云计算运维管理的建设。中国联通在此之前的文件与本规范不一致的,应以本次规范要求为准,并在相关的具体规范发布后废止。本
7、标准由中国联通公司信息化事业部提出。本标准由中国联通公司技术部归口。本标准主要起草单位:中国联通信息化事业部,联通研究院。本标准主要起草人:孙海峰,张云勇,宋积慧,李卫,王智明。本标准的修改和解释权属中国联合网络通信。中国联通云运维管理技术规范V1.01 范围本规范阐述了云计算运维管理的范围、用户、对象及体系架构,规定了中国联通云计算运维管理的功能要求、技术要求,以及中国联通云计算运维管理的资源数据模型和监控指标体系等。本技术规范适用于指导中国联通未来云计算运维管理的建设。2 规范性引述文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误
8、的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。1 QB/CU 191-2012中国联通云计算技术体制V1.02 QB/CU 165-2012中国联通IT云计算IaaS平台技术规范V1.03QB/CU 166-2012中国联通IT云计算IaaS接口技术规范V1.03 缩略语和术语3.1 缩略语缩略语英文全称中文含义APIApplication Programming Interface应用程序编程接口 IaaSInfrastructure as a service基础设施即服务ITInform
9、ation Technology信息技术PaaSPlatform as a service平台即服务PRMPartner Relationship Management合作伙伴关系管理SaaSSoftware as a service软件即服务SOAService Oriented Architecture面向服务的体系架构3.2 术语及定义术语/定义解释ESB基于开放的标准消息总线,用于通过标准的适配器和接口,来提供各程序和组件之间的互操作功能。它支持相互独立的异构环境中的服务、消息及基于事件的交互,并且具有适当的服务级别和可管理性。ETL指数据抽取、转换、装载的过程。能够按照统一的规则集成
10、并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。IaaS以服务的形式,提供计算、存储、网络等基础设施资源,用户无需购买服务器、存储设备、网络设备,只需通过互联网租赁即可搭建自己的应用系统,帮助削减IT基础设施的建设成本和运维成本。PaaS以服务的形式,提供软件开发、测试、部署和运行环境,以及能力开放接口或应用服务引擎,屏蔽软件开发底层复杂的操作,用户可以快速开发出基于云平台的高性能、高可扩展的服务。SaaS以服务的形式,提供各种在线软件,用户不必购买软件,只需按需租用软件。SOA一种新型的软件体系架构模式,它是在计算环境下设计、开发、应用、管理分散服
11、务单元的一种规范,它将应用程序的不同功能单元(称为服务)通过服务间定义良好的接口和契约联系起来。可以根据需求通过网络对松散耦合的粗粒度服务进行分布式部署、组合和使用。云监控提供对云服务的资源监控,供用户查看资源的使用情况、运行性能等,包括了CPU的使用率、磁盘读写和网络流量情况云计算一种新的计算方法和商业模式,通过虚拟化、分布式处理和宽带网络等技术,按照“即插即用”的方式,将计算、存储、网络等IT基础设施,以及其上的开发平台、软件等服务,抽象成高效、弹性、可运营、可管理的公共信息处理资源,通过公众通信网络,以按需分配的服务形式向用户提供动态可扩展信息处理能力和应用服务,用户按实际使用数量进行付
12、费在云计算下,使用者通过公众通信网络,以按需分配的服务形式,获得动态可扩展信息处理能力和应用服务,也是电信运营商新的信息服务产品和ICT交付模式,资源出租转化为能力出租,由自建自营到开放共赢。云平台云平台是指云运维管理所辖的IaaS/PaaS/SaaS综合管理平台,资源池资源池是一组物理资源或一组虚拟资源的集合,可以从池中获取资源,也可将资源回收到池中。资源包括物理机、虚拟机、虚拟网络设备、物理网络设备和IP地址等。4 云运维管理体系框架4.1 云运维管理的概述4.1.1 云运维管理的范围根据云计算的可运营、可管理特性,以及专业管理分工特点,云计算的一体化服务支撑由云运营管理和云运维管理构成。
13、云运营管理负责面向云资源使用者,提供云计算服务需求受理、开通、计量/计费和客户服务。云运营管理的最终用户是云资源使用者。云运维管理负责面向云资源管理者和云运维人员,提供云资源的规划、监控、调度、分配、调拨、维护和优化建议。云运维管理的最终用户是云运维管理部门(云资源管理者)和云运维支撑部门(云运维人员)。本规范将聚焦于云运维管理的技术要求和功能要求。4.1.2 云运维管理的用户云运维管理的最终用户是云运维管理部门(云资源管理者)和云运维支撑部门(云运维人员)。4.1.3 云运维管理的对象云运维管理的对象包括IaaS平台、PaaS平台和SaaS平台内的所有云资源。云资源包括IaaS层的物理资源和
14、虚拟资源,PaaS层的数据库资源、中间件资源和技术服务组件资源,以及SaaS的私有云应用和公有云应用等。由于IaaS/PaaS/SaaS综合管理平台容量规模限制及管理要求,可能存在多个IaaS/PaaS/SaaS综合管理平台。4.1.4 云运维管理与传统IT运维管理的差异云运维管理与当前传统IT运维管理的不同表现为:集中化和资源池化。原有的IT运维管理采用总部-省分二级三中心模式,即总部一级管理中心、总部二级I管理中心和省分管理中心。云运维管理将采用集中化方式,统一管理中国联通公司内部所有云资源的规划、监控、调度、分配、调拨、维护和优化建议;具有规范性和统一性,可以降低整体的维护成本,但也会提
15、高对云运维管理和运维人员的要求。云运维管理需要尽量实现自动化和流程化,避免在管理和维护中因为人工操作带来的不确定性问题。同时云运维管理需要针对不同的用户(各级领导和云运维管理部门)提供个性化的视图,帮助管理和维护人员查看、定位和解决问题。资源池化意味着云运维管理管理的资源是中国联通公司内部的共享资源。云运维管理和运维人员面向的是所有的云资源,要完成对不同资源的分配、调度和监控。同时应能够向用户展示虚拟资源和物理资源的关系和拓扑结构。云运维管理的目标就是适应上述的变化,改进运维的方式和流程来实现云资源的运行维护管理。4.1.5 中国联通的云运维管理体系中国联通云运维管理体系具有如下典型的三级部署
16、架构:云运维管理IaaS综合管理平台传统硬件云运营管理PaaS综合管理平台SaaS综合管理平台SaaS资源池PaaS资源池IaaS资源池图4-1 云运维管理的三级部署架构对应于云运维管理体系的部署架构,其运维支撑体系也进行了三级划分,相比较传统IT服务支撑的运维支撑体系增加了虚拟化资源池和IaaS/PaaS/SaaS平台运维职责,同时在三线运维人员增加了虚拟化平台和IaaS/PaaS/SaaS平台的原厂。运维职责运维角色云运维三线运维人员IaaS/PaaS/SaaS平台运维二线运维人员一线运维人员资源池运维传统硬件运维图4-2 云运维管理体系运维人员设置为一线运维人员、二线运维人员和三线运维人
17、员,职责如下:n 一线运维人员主要负责对IaaS/PaaS/SaaS资源池以及传统硬件的运维。云运维管理体系中一线维护人员参与的流程可参照代维对象代维管理办法中提供的流程。n 二线运维人员主要负责对IaaS/PaaS/SaaS平台的运维。云运维管理体系中二线维护人员参与的流程可参照代维对象代维管理办法中提供的流程。n 三线运维人员完成效益提升域、系统保障域和服务管控域中的运维管理工作。三线维护人员针对云运维管理进行维护。4.2 体系框架定位联通云运维管理体系是联通信息化部关于建设集中化云运维管理所依据的总体纲领,其阐述了云运维管理的管理领域和建设内容,是各组织人员在进行云运维管理相关建设时的建
18、设纲领和建设标准。各组织人员在进行云运维管理建设时,在严格遵循体系要求的前提下,根据各自的管理现状进行具体内容建设。体系框架定义了联通云运维管理体系所涵盖的管理域,包括组织人员、流程制度、技术工具、信息管控四个方面。云运维管理体系在联通信息化建设架构中的定位如下图所示:图 43 云运维管理体系定位4.3 体系框架设计原则为了保证体系架构既适合联通实际,又充分吸取业界最佳实践和管理标准;既做到统一、规范、标准,又充分响应各组织人员的特色运维管理需求。体系架构在设计时遵循了以下原则:n 有效支撑联通一体化运维/运营企业战略的原则。n 管控透明化、标准化、集中化、自动化的原则。n 联通的企业实践为根
19、本,验证吸收ITIL(V3)最佳实践和其他业界标准的原则。n 各组织人员的共性化管理需求作为联通的企业实践主要输入的原则。n 各组织人员需求统一提交、统一规范、统一下发的原则。n 体系框架持续优化、定期修正的原则。4.4 体系架构管控策略为了保障云运维管理体系最终的建设效果,切实提升中国联通信息化部的云运维管理水平和服务质量,各组织人员在进行云运维管理体系建设时,需严格执行以下管控策略:n 各组织人员应严格遵循本次规范的要求,保证规范内容的有效落地n 各组织人员应建立量化管控机制,通过量化管控的建设落实指标化管理。n 建设单位要保证规范要求中的人员配套措施落实到位,要做到职责落实到岗、落实到人
20、n 建设单位要充分认同实现全国一体化运维/运营的建设目标,优先开展全国一体化运维/运营服务受理体系和服务台建设。n 各组织人员在建设过程中需保障规范中明确提出的总部信息化部管控要求的落地实现,例如流程建设中总部信息化部参与的要求;总部信息化部要求的管控指标等。4.5 体系框架总图本次云运维管理体系设计,充分参考国内外运营商和互联网企业在云运维方向上的成功建设经验和ITIL (V3)的最佳实践,采用PPIT方法论,从组织人员、流程制度、技术工具、信息管控四个方面描述IT服务支撑体系。具体如下:图 44 云运维管理体系框架总图4.5.1 组织人员域组织人员域包含的管理内容为:保证IT云化后服务支
21、撑体系建设的组织保障要求,包括组织职能、组织架构、岗责等管理内容。本规范中定义的组织与人员域所阐述的范围是联通信息化部门,立足于对未来联通IT云化后服务管理体系落地的组织保障要求,定义了IT云化后服务支撑体系所涉及的组织管理职能,并对相应职能进行定义说明,指导信息化部的组织配套措施的落地。组织人员域提到的管理职能是针对虚拟组织而言,各级单位在进行角色设置和职责落实时,可以根据自身的组织架构和管理现状将要求的各管理职能映射到组织中的对应人员或部门,并在该人员或部门职责中,增加对其的职责要求组织人员域包含的管理内容为:保证云运维管理体系建设的组织保障要求,包括组织职能、组织架构、岗责等管理内容。4
22、5.2 流程制度域流程制度域包含的管理内容为:云运维管理相关的各类管理流程和保障其落实的管理制度。本次规范流程制度域的设计,在吸取联通信息化部前几版规范的实际建设经验的基础上,提出了以联通现有实际工作现状和需求为基础,以云计算运维服务管理为基本内容,并与ITIL(V3)最佳实践相互印证的原则,对流程制度域的具体管理流程进行了梳理和定义,以保证一切从实际出发、有的放矢,取得立竿见影的运维实施效果,避免出现全盘照搬ITIL给各组织人员在运维实施过程中带来困惑和束缚。各组织人员在流程建设的同时,应根据各自的特点,完善维护、考核等相关制度,配合云运维管理技术要求的落实,确保云运维管理目标的实现。本管
23、理域中提到的每个流程的详细设计要求都在本规范中进行了详细阐述,定义了流程的目标、范围、活动、角色与职责、流程间的交互关系、流程管理政策、关键控制点、流程KPI和参考信息等要素,各组织人员在运维实施过程中可以参考本规范的具体要求,结合自身实际情况,进行具体的落地实现。4.5.3 技术工具域技术工具域包含的管理内容为:承载云运维管理体系落地的各类云运维管理功能模块。本规范定义了用于承载云运维管理体系的技术工具,以实现云运维管理体系框架中提到各类管理要求、管理流程、管理信息的最终落实,具体包括以下内容:n 运维门户:整合中国联通云运维管理的功能应用,提供个性化的门户展现。面向管理者,根据其用户权限,
24、提供云资源的规划、调度等策略管理界面,提供云资源的状态查看界面,提供云资源的健康度分析、优化管理建议的展现;面向运维人员,根据其用户权限,提供分层级的云资源的状态查看界面,提供分层级的云资源的告警信息查看和策略设置。n 运维需求管理:负责云运维管理的需求的全生命周期流程化管理,包括需求获取、需求处理、需求分析、需求验证和需求后评估五个管理过程。n 运维服务管理:负责对云运维管理提供的各种运维服务进行管理,包括效益提升域的资源容量管理类流程、I/P/S平台管理类流程、资源管理识别类流程、资源管理使用类流程、资源管理回收类流程、资源配置管理类流程、资源管理通用类流程;系统保障域的故障处理类流程、维
25、护类流程、应急预案类流程;服务管控域的运维评价考核类流程、运维平台使用咨询类流程。n 云资源管理:实现对各类云资源的全生命周期的静态管理,包括资源状态管理、资源数据模型、资源数据核查、资源数据提供、容量管理、资源拓扑管理、资源数据模型管理、资源数据维护、资源预警等。n 资源监控管理:负责对各类云资源的性能和状态进行监控、管理、维护和统计,包括对IaaS平台、PaaS平台、SaaS平台实现实时监控、捕获资源的部署状态、性能指标、运行指标、各类告警信息等,以及资源操作日志、资源服务质量监控、监控体系等。n 业务监控管理:负责对业务的性能、状态进行监控、管理、维护和统计,包括对各业务系统的信息管理、
26、业务的拓扑展现等。n 云平台策略管理:负责管理IaaS平台、PaaS平台和SaaS平台的资源纳管、分配、调度和容量管理,向云运维管理的管理者或运维人员提供策略的制订、修改、删除、审核和发布等操作管理功能。n 云平台配置管理:负责管理IaaS平台、PaaS平台和SaaS平台的资源配置,向云运维管理的管理者或运维人员提供配置的制订、修改、删除、审核、发布和审计等功能。n 统计分析:负责对各类云资源的各项信息进行多维度的统计分析,为管理者或运维人员提供资源健康状况分析和资源管理优化等建议。n 集成管理:负责云运维管理内部功能模块之间的接口,以及云运维管理与IaaS平台、PaaS平台、SaaS平台、云
27、运营管理等接口的实现和管理。n 系统自管理:负责云运维管理自身的各项管理,包括参数管理、日志管理、平台监视、用户管理、系统备份和恢复、版本控制管理等。技术工具的具体要求可参照国内外电信运营商及互联网企业在云运维管理方面的先进技术和研究成果,并遵循企业现有的中国联通IT服务支撑流程管理规范v1.0、中国联通IT服务支撑系统业务规范v1.0和中国联通IT服务支撑系统技术规范v1.0等主要技术要求。4.5.4 信息管控域信息管控域包含的管理内容为:支撑云运维管理要求的各项管理数据,包括资源信息、考核指标、管理报告等内容。本次规范在信息管理域的要求主要包括指标体系和数据模型两个方面的内容:n 指标体系
28、包括监控指标和服务类指标两大类,监控类指标定义了未来监控系统需要监控的相关指标,服务类指标定义了客户感知和运维考核类指标。n 数据模型定义资源管理的管理范围和管理颗粒度,数据模型包括被管对象的分类、属性、关系和命名规则。4.5.4.1 指标体系4.5.4.1.1 指标设计目标为了有效支持联通云计算运营,合理评估云计算运维支撑体系的建设成果,不断提升管理水平,制定了本指标分册,其总体目标是:n 统一云计算运维服务水平的量化标准。n 建立指标框架,指导云计算运维管理实践中梳理和建立自身的监控指标与服务管理指标体系。n 建立管控指标库,实现与时俱进的绩效考核目标,持续提高中国联通整体云计算运维管理水
29、平。4.5.4.1.2 指标体系定义指标是实现IT服务量化管理的基础,是对业务服务或者专业服务的可用性和能力等服务水平的描述;本规范之指标体系是一套针对中国联通IT服务的服务水平进行实时监控和后评估的方法体系。本指标体系框架主要定义了以下3个域:4.5.4.1.3 服务价值业务是指由中国联通云计算业务,这些业务直接面向信息化部的内部使用者,也称之为客户。因此业务价值域指标也称之为客户体验指标,用于反映云计算服务对内部客户的服务水平,在本文中,我们称之为业务指标。定义该域的目的:提升内部用户感知和满意度。4.5.4.1.4 运维质量运维质量指标是用于衡量应用系统及其承载这些应用系统的基础设施(包
30、括提供计算服务的主机服务器、提供数据通信服务的网络系统以及提供数据存储服务的存储系统等)自身处理能力及其可用性状况的指标。可分为应用指标和平台指标两大类。定义该域的目的:n 考核和提升应用系统及其基础平台处理能力。n 考核和控制企业IT风险,防范因IT故障对企业业务造成的损失。4.5.4.1.5 服务保障云服务保障域指标也称之为服务指标,是用于衡量企业服务管理规章及相关流程执行能力和效果的指标。定义该域的目的:n 考核和提升组织资源服务能力;n 考核和控制组织资源服务的合规性。4.5.4.2 数据模型数据模型定义了中国联通云运维管理系统所管理的云计算各类资源、服务数据模型,定义了资源管理的范围
31、和颗粒度,具体包括资源域、服务域、人员组织域三大主题域。云运维管理系统所管理的实体范围按照主题划分为云资源、云服务、人员组织三大主题。云资源管理的核心数据是资源项,任何受资源管理控制的事物都属于资源项,可以是包括软硬件在内的完整系统,也可以简单到其中的一个硬件模块,也可以是一项资产,服务组件或者项目,资源域和服务域的事物都属于资源项范畴。n 云资源主题:描述的资源是中国联通云计算服务过程中所涉及到的所有物理的、逻辑的实体,资源根据资源的存在形态来划分,分为硬件资源、软件资源、辅助资源和空间资源: 物理资源是确实存在的、可见的的有形资源,从物理角度描述资源信息。包括主机服务器、网络设备、存储设备
32、终端等硬件设备。从资源项的管理层次进一步细化,系统可将更细化的可独立存在的硬件模块作为资源项,包括磁盘、内存、CPU、网卡等。 虚拟资源是通过虚拟化后的资源,通常包括虚拟计算资源、虚拟存储资源、虚拟网络资源。虚拟资源是依赖物理资源而存在的,物理资源为虚拟资源的运行起支撑作用。 软件资源是运行在硬件资源上的软件实体,软件资源与硬件资源一起对外提供各种系统服务。包括操作系统、基础软件、应用系统等软件。从资源项的管理层次进一步细化,系统可将更细化的可独立存在的逻辑单元作为资源项,如进程等。 辅助资源是在生产过程中,对IT系统的运行起辅助性作用,包括规划信息、工程工程、文档、合同、软件包等。 空间资
33、源:描述的是资源项相关的位置信息,包括资源项存放的地理位置信息和和资源项的管理区域。联通管理区域是中国联通根据平台自管理需要进行的区域划分。n 云服务主题:描述的服务是对内部客户所能够提供的云计算服务能力,从服务的提供形式来划分,分为IaaS服务、PaaS服务和SaaS服务三大类。 IaaS服务: PaaS服务: SaaS服务:n 人员组织主题:IT人力资源也将作为信息化部对外提供服务所需要的一类资源,包括角色和人员,供应商是一类特殊的IT人力资源。IT人力资源对资源进行有效的支撑和管理,保障IT系统的正常运转。4.6 云运维管理活动概述组织人员域阐述了IT云化后服务支撑体系对组织职能的要求,
34、各级建设单位应将要求的组织职能落实到自身组织架构中,完成组织保障。n 服务台:业务用户使用信息化部IT服务的单一联系点,是IT和信息化部对外的服务窗口 职能描述- 通过统一集中的服务台对投诉、故障申告、问题咨询的受理、初步处理、分派和追踪,提高处理过程的透明度和处理的时效性- 7x24服务支持,强化统一受理,确保所有投诉、故障申告、问题咨询得到准确的记录和及时的分派;确保投诉、故障申告、问题咨询在需要跨专业技术领域协调解决时得到及时有效的分派和处理;客户满意度调查和反馈- 通过普及和宣传,帮助用户更好地使用IT服务- 及时向客户传递IT服务变化通告n 服务管理职能:实现信息化部整体服务管理,驱
35、动组织建立以服务为导向,以流程为工作方式的运维模式 职能描述- 规划信息化部IT云化后的服务管理的发展思路,提出年度项目/举措建议并对批准的项目/举措进行落实跟进- 梳理和定义IT云化后的服务支撑体系,推动关键流程角色的岗位和考核落实,与各流程经理一起推动运维管理流程体系的推广与落地实施- 对运维人员进行流程与制度培训和流程运行指导- 梳理和定义运维绩效指标,对流程执行情况进行质量监控,实现运维服务绩效的量化管理;结合流程使用者的反馈,对服务流程进行持续优化- 负责信息化部IT资源(硬件、IaaS平台、PaaS平台、应用系统)的SLA制定及评估。- 定期提供运维服务管理报告,组织运维管理会议,
36、向管理层汇报,对会议形成的改进措施牵头落实 业务价值- 通过服务管理职能推动横向的流程贯穿和信息共享,提高运维效率,降低运维风险- 提高信息化部在运维管理工作方面决策的科学性,增强决策的执行力。通过可量化的指标和职能保障,可以系统化地分阶段提升组织的整体IT云化后的运维成熟度,以更好地实现与业务整合n 公共资源管理职能:实现信息化部IT公共资源(软硬件、中间件、数据库、机房等)的全生命周期管理 职能描述- 负责信息化部IT资源的规划、纳管、扩容、分配、回收、调拨等管理,并对IT资源的整体配置策略进行集中统一管控n 运维第三方管理职能:运维第三方服务管理统一的组织保障,实现信息化部整体运维第三方
37、服务管理,加强对运维第三方的控制,对运维第三方服务实现量化的绩效管理。 职能描述- 规划信息化部运维第三方服务的策略和范围,对运维第三方服务管理工作进行年度总结和计划- 建立运维第三方服务管理的整体流程体系和质量要求- 对运维第三方服务需求进行统一归口管理,积极参与运维第三方的谈判和选择过程,为第三方服务建立服务水平协议,量化服务产出。确保运维第三方服务范围描述清楚、考核设计科学、日常运作职责和接口明确- 维护和管理运维第三方服务列表和服务商信息,对所有运维第三方服务进行绩效跟踪管理,确保第三方提供高质量的无缝服务- 建立与运维第三方之间的关系管理机制,增强与第三方之间的信任和透明度- 对运维
38、第三方服务合同纠纷、合同变更、合同中止及服务移交等进行有效管理 业务价值- 降低运维第三方服务带来的业务风险- 提高运维第三方服务质量,降低整体运维成本- 清楚界定信息化部与运维第三方间的分工界面n 运维管理团队:承担专业技术领域(硬件、IaaS平台、PaaS平台、应用系统)的运维管理职责。 职能描述- 规划信息化部专业技术领域(硬件、IaaS平台、PaaS平台、应用系统)的运维管理策略和范围,制定运维支撑团队的工作计划,并进行指导和考核- 负责信息化部专业技术领域(硬件、IaaS平台、PaaS平台、应用系统)的运行监控及故障协调处理- 负责信息化部IT资源(硬件、IaaS平台、PaaS平台、
39、应用系统)的SLA转化(KQI/KPI分解)。n 运维支撑团队:传统硬件运维支撑、IaaS平台运维支撑、PaaS平台运维支撑、应用运维支撑、原厂等团队。 职能描述- 传统硬件的运行监控、维护及故障处理- IaaS平台的运行监控、维护及故障处理- PaaS平台的运行监控、维护及故障处理- 应用系统的运行监控、维护及故障处理- 负责信息化部IT资源(硬件、IaaS平台、PaaS平台、应用系统)的SLA监控与保障。- 三线运维支持:第三方软硬件原厂、虚拟化平台/IaaS原厂、中间件/数据库/PaaS平台原厂的三线支持- 7x24监控值班- 基础运行维护,包括维护作业计划执行、机房巡视等n上述管理职能
40、各级建设单位应根据自身单位专业团队的架构和特点,进行相应的职能映射,以保证管理职能的落实。4.7 云运维管理活动指标体系4.7.1 系统保障域流程4.7.1.1 故障处理类流程4.7.1.1.1 故障处理评估指标表4-1故障处理评估指标指标名称指标描述系统数据要求指标算法建议采集间隔数据类型级别是否上报故障总量针对云运维管理所辖范围内IaaS/PaaS/Saas平台,考核周期内受理的故障总量1天整型高否故障平均处理时长针对云运维管理所辖范围内IaaS/PaaS/Saas平台,考核周期内故障的平均处理时长1天整型高否故障处理及时完成率针对云运维管理所辖范围内IaaS/PaaS/Saas平台,在
41、流程时限要求内完成故障处理的比例1天整型高否故障处理完成率针对云运维管理所辖范围内IaaS/PaaS/Saas平台,考核周期内完成故障处理的比例1天整型高否4.7.1.1.2 重大紧急告警事件处理评估指标表4-2 重大紧急告警事件处理评估指标指标名称指标描述系统数据要求指标算法建议采集间隔数据类型级别是否上报上报重大紧急告警事件总数考核周期内上报的重大紧急告警事件总数1天整型高否重大紧急告警事件平均处理时长考核周期内重大紧急告警事件平均处理时长1天整型高否重大紧急告警事件处理及时率在流程时限要求内完成重大紧急告警事件上报的比例1天比值高否4.7.1.1.3 云终端故障申告处理评估指标表4-3
42、云终端故障申高处理评估指标指标名称指标描述系统数据要求指标算法建议采集间隔数据类型级别是否上报申告总数考核周期内受理的云终端故障申告总数1天整型高否申告平均处理时长考核周期内受理的云终端故障申告平均处理时长1天整型高否申告及时完成率在SLA内完成的云终端故障申告申请比例1天整型高否故障申告的一次完成率核周期内受理的云终端故障申告通过一次 远程支持解决的比率,1天整型高否4.7.1.2 维护变更请求类流程表4-4 维护变更请求处理评估指标指标名称指标描述系统数据要求指标算法建议采集间隔数据类型级别是否上报系统变更总量针对云运维管理所辖范围内IaaS/PaaS/Saas平台,考核周期内系统变更总量
43、1天整型高否系统变更平均处理时长针对云运维管理所辖范围内IaaS/PaaS/Saas平台,考核周期内系统变更平均处理时长1天整型高否系统变更及时完成率针对云运维管理所辖范围内IaaS/PaaS/Saas平台,考核周期内系统变更及时完成率1天整型高否4.7.1.3 应急预案类流程表4-5 应急预案处理评估指标指标名称指标描述系统数据要求指标算法建议采集间隔数据类型级别是否上报配置项维护总量考核周期内配置项维护总量1月整型高否平均处理时长考核周期内配置信息维护流程平均处理时长1月比值高否完成及时率考核周期内配置信息维护完成及时率1月整型高否4.7.1.4 配置管理类流程表4-5 配置管理处理评估指
44、标指标名称指标描述系统数据要求指标算法建议采集间隔数据类型级别是否上报配置项维护总量考核周期内配置项维护总量1月整型高否平均处理时长考核周期内配置信息维护流程平均处理时长1月比值高否完成及时率考核周期内配置信息维护完成及时率1月整型高否4.7.1.5 日常运维类流程4.7.1.5.1 作业计划评估指标表4-6 作业计划评估指标指标名称指标描述系统数据要求指标算法建议采集间隔数据类型级别是否上报作业计划总量考核周期内执行作业计划的总量(包含地域、部门、业务、完成状态等)1月整型高否作业按时执行率作业计划按时执行率1月比值高否作业成功执行率作业计划成功执行率1月比值高否4.7.1.5.2 值班管理
45、评估指标表4-7 值班管理评估指标指标名称指标描述系统数据要求指标算法建议采集间隔数据类型级别是否上报故障发现总量考核周期内值班发现的故障总量1月整型高否按时接班率考核周期内按时接班率1月整型高否4.7.2 服务管控域流程4.7.2.1 运维服务及时性4.7.2.1.1 事件处理的及时性表4-8 事件处理及时性指标指标名称指标描述系统数据要求指标算法建议采集间隔数据类型级别是否上报事件处理成功率运维事件处理的成功率P1:成功量P2:失败量P1、P21天数值型中是事件处理成功量运维事件处理成功量P1:成功量P11天数值型中是事件处理失败量运维事件处理失败量P1:失败量P11天数值型中是事件处理时长运维事件处理时长P1:事件处理接受时间P2:事件处理完成时间average(p2-p1)