网络设备项目售后服务方案.pdf

上传人:白大夫 文档编号:5609087 上传时间:2020-06-23 格式:PDF 页数:51 大小:1.04MB
返回 下载 相关 举报
网络设备项目售后服务方案.pdf_第1页
第1页 / 共51页
网络设备项目售后服务方案.pdf_第2页
第2页 / 共51页
网络设备项目售后服务方案.pdf_第3页
第3页 / 共51页
网络设备项目售后服务方案.pdf_第4页
第4页 / 共51页
网络设备项目售后服务方案.pdf_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《网络设备项目售后服务方案.pdf》由会员分享,可在线阅读,更多相关《网络设备项目售后服务方案.pdf(51页珍藏版)》请在三一文库上搜索。

1、. . 4.4.1.售后服务方案描述及相关承诺 1. 总述 1.1 项目名称 XXXXX 网络设备项目。 1.2 项目背景描述 随着互联网应用的快速增长,以及下一代互联网的加速推进,短信、网游、语 音以及视频宽带业务的日益火爆,电子商务的再度兴起,IDC 市场迅速升温, IDC 业务收入迅速增长, IDC 业务的客户群也迅速增大。为了抢占潜在客户资源,大力 推广 IDC业务,这样就需要建设一个侧重中、高端客户,兼顾低端客户需求的IDC 机房系统。 1.3 服务期限及范围 为 XXX核心网络设备(含2 台防火墙, 2 台交换机, 2 台路由器),其检修和维护。 我公司将按质按量完成XXX核心网络

2、设备维护修理维护服务。 1.4 实施目标 为 XXX核心网络设备提供优质的维护修理服务,并对2 台防火墙, 2 台交换机, 2 台路由器统提供卓越的技术支持与运行维护服务。保证2 台防火墙, 2 台交换机, 2 台 路由器运行稳定。 1)我方通过严格的修理维护服务,保证相关本次所涉及的相关软硬件的高效稳定 运行。 2)我方具备应急处理能力并制定了完善的应急预案,减少计划内和计划外的停机 时间,最终能够保障电力业务核心系统每周7 天24 小时不间断稳定运行。 3)我方定期对现有软硬件平台系统运转状况进行巡检、跟踪和分析,科学地预测 和掌握软硬件平台系统的性能状态,提出科学合理的扩容和升级建议。

3、. . 4)我方在维护中熟悉各主机上承载应用系统,结合 IT 系统和业务应用的具体实际 情况,查漏补缺,提出整改建议,配合应用厂商不断优化系统整体性能,提高系统 运行整体效率。 1.5 术语定义 1)业主方: xxxxx团有限公司。 2)故障级别定义如下: P1级故障:重大故障,系统瘫痪,无法运行,业务丢失。 P2级故障:系统部分设备故障,影响和限制了部分业务运营。 P3级故障:一般性技术故障,发现系统和设备的技术问题,但系统和业务仍可 正常运行。 P4级故障:在系统功能配置、运维管理方面需要信息或支援,对用户的业务几 乎无影响。 . . 2. 总体实施方案 2.1 服务流程 xxx 有限公司

4、将根据 XXX核心网络设备(含 2 台防火墙,2 台交换机,2 台路由器) 服务内容制定了相关的服务流程,以下流程适用于本项目的含防火墙,交换机,路由器 流程。 2.1.1 高级故障诊断及检修流程 1)针对系统、设备发生的一级、二级故障进行响应,分别在规定时间内进行维修、恢 复服务。其中紧急重大故障要求15 分钟内到达现场处理。 2)我方提供服务相当于原厂技术服务水平。并提供电话或现场技术咨询和技术支持服 务。 服务流程图 高级故障诊断及检修服务流程 服 务 台 支 持 人 员 ( 1 线 、 1 . 5 线 ) 现 场 支 持 人 员 ( 2 / 3 线 ) 其 它 服 务 支 持 设 备

5、发 生 故 障 服务台响应 事件关闭 解决和 恢复, 按故障 级别时 间,处 理故障 请求 已解决 知识管理 呼叫服务台 处理故障 方案 是否 重大故障 N 故障现场响应 Y 远程 调查与诊断 现场 调查与诊断 是否 现场处理 是否更改 设备 更换设备或 部件 Y 结束 用户回访 Y . . 服务流程说明 序号步骤名称责任人说明 1 服务台响应服务台 服务台人员接受来自用户上报的故障以及各类服务请 求。在验证用户基本信息后,服务台人员在服务管理平台上登 记一条故障信息并进行跟踪和处理,并创建故障事件单。 服务台人员判断故障是否重大事件,如重大事件将立 刻通知现场支持人员到现场。如不是重大故障,

6、将根据故障级 别及故障类型,安排工程师进行故障处理 如果是一条重复事件,则新建该事件记录后,更新原 有事件为“主事件” ,并建立重复事件与原有事件的关联关系。 如果是一条复发事件,则创建一个新的事件单,复制 原始事件单的内容,并说明这是复发的事件。 2 故障现场相应 现 场 支 持人员 根据服务台所描述的基本故障情况,现场支持人员将 在 15 分钟内到达故障现场,为用户处理故障 3 远程调查与诊 断 服 务 台 支 持 人 员 服务台人员根据事件分类表确认事件的分类,根据事 件的影响度和紧急度,为事件分配优先级。 分析故障原因,在知识库中查询是否有解决方案,制 定初步的故障处理方案。 如故障是

7、由于设备硬件引起或远程无法处理时,将通 知现场维护人员,到现场处理处理故障。 进行调查诊断,尝试解决,必要时联系第三方供应商 协助处理。 4 现场调查诊断 现 场 支 持人员 现场支持人员在现场判断故障情况,根据故障的具体 情况,制定解决方案。 判断故障是否需要更换部件,如需更换备件,我方将 联系仓管调出设备配件,并负责设备的安装和卸载。 5 更换设备或部 件 现 场 支 持人员 更换完设备后再对故障进行检测,如故障未被处理, 将继续对故障进行分析,彻底解决故障问题。 . . 序号步骤名称责任人说明 6 解决与恢复 服务台、 现 场 支 持人员 按照制定好的解决方案对故障进行处理。 判断实施解

8、决方案是否可行,并制定变更方法。 实施成功后,详细记录解决方案或变通方法。 7 事件关闭 服 务 台 支 持 人 员 将故障处理情况提交至知识管理。 关闭事件。并对故障记录进行归档,再制定用户回访 计划。 8 用户回访 服 务 台 支 持 人 员 向用户确认故障是否已得到解决。 确认用户是否报告其他问题。 用户反馈故障处理情况,并对本次服务进行评价。 . . 2.1.2 设备调优流程 1)针对长期出现资源瓶颈的设备进行分析,提出解决方案或优化方案。 2)对系统进行定期评估,给出评估优化方案。 服务流程 . . 服务流程说明 序号步骤名称责任人说明 1 设 备 性 能 检 测 服务器、存储支持

9、工程师 利用有效的工具对设备进行检测。 对设备进行健康检查,标记存在资源瓶 颈的设备。 2 统 计 资 源 瓶 颈 的 设 备 数 量 服务器、存储支持 工程师 根据标记的资源设备进行设备统计 对资源瓶颈的设备进行故障原因分析, 判断资源瓶颈的问题是由何种原因所引起。 分派问题到各个专业工程师设计解决方 案。 3 硬件问题分析 服务器、存储支持 工程师 分析设备硬件上的资源瓶颈问题,列出 引起此故障的原因 4 系统问题分析 操作系统支持工程 师 分析操作系统上的资源瓶颈问题,列出 引起此故障的原因 5 平台问题分析 应用平台支持工程 师 分析应用平台上的资源瓶颈问题,列出 引起此故障的原因 6

10、 数据库问题分 析 数据库支持工程师 分析数据库上的资源瓶颈问题,列出引 起此故障的原因 7 设计服务器、 存 储 解 决 方 案 服务器、存储支持 工程师 对列出服务器、存储硬件问题逐条给出 处理意见与优化方案。 8 设 计 系 统 解 决方案 操作系统支持工程 师 对列出操作系统问题逐条给出处理意见 与优化方案。 9 设 计 平 台 解 决方案 应用平台支持工程 师 对列出应用平台问题逐条给出处理意见 与优化方案。 10 设 计 数 据 库 解决方案 数据库支持工程师 对列出数据库问题逐条给出处理意见与 优化方案。 . . 序号步骤名称责任人说明 11 整合方案我方项目负责人 整合各技术支

11、持工程师给出的解决方 案。 对解决方案的内容进行审核,确保处理 意见的安全和有效。 制定实施计划,并将方案提交给业务部 门。 12 业 务 部 门 审 批 设备负责人 业务部门负责人对整合的方案进行审 批。 按实施计划通知每个人设备负责人。 13 优化实施各技术支持工程师 工程师按照最终的实施计划和方案对设 备进行调优工作。 2.1.3 备件保修和更换流程 1)当设备出现故障时,我方应及时进行检查、维修或更换故障部件。 2)如果硬件设备故障, 保证在 2 小时内提供不低于故障设备规格型号档次的备用设备 替代使用,直至故障设备修复为止,以最大限度保证业务系统不间断地正常运行。 3)若需要更换部件

12、,其更换的部件必须是原厂的部件,与原有部件具备同等的质量和 性能。 . . 服务流程图 . . 服务流程说明 序号步骤名称责任人说明 1 故障设备检查现场支持人员 现场检查,判断故障引起的原因和故障位 置 判断故障是否能现场处理,例如通过配置 等方法解决故障,即现场处理。 2 现场维修现场支持人员 对故障进行处理,通过技术手段等解决故 障问题。 3 提供备件现场支持人员 故障由于设备的硬件引起,难以现场立刻 处理,我方提供同等设备型号和功能的配件给用户 使用。 4 现场安装与卸载设备维修人员 现场卸载故障的设备。 安装我方提供的备件设备。 5 故障设备维修设备维修人员 判断设备是否已经过保。并

13、制定维修计 划。 设备未过保,通知设备的提供商对故障设 备进行修复。 设备已过保,我方提供或采购相应的备件 和部件,对设备进行维修。 6 设备提供厂商维修设备提供厂商设备提供厂商对故障设备进行修复 7 提供所需的备件或 部件进行维修 设备维修人员 我方安排专业对技术人员更换或维修故 障设备。 将拆卸的故障部件进行封存,交还给设备 提供商。 8 故障设备复查现场支持人员 设备维修成功后,我方现场支持人员到现 场对修复好的设备进行复位。 检查设备的运行情况,如设备还存在故障 问题,我方将继续对故障进行处理与解决。 . . 2.1.4 特保服务流程 1) 按照公司要求,对于特殊时期必须保障设备运行的

14、, 我方根据要求驻场值守和服务, 完成特殊时期保障任务。 2) 需预计每年安排约有2 个月的特保时间。 服务流程图 服务流程说明 序号步骤名称责任人说明 1 制定特殊时 期值班计划 现场支持人员 现场值班人员制定值班服务计划 值班计划包含人员的联系方式与相关设备系 统的负责人的联系方式 2 业务部门审 批 设备负责人 业务部审批值班服务计划 如服务计划未能满足用户的需求,将退回现场 值班的人员重新设定值班计划。 3 值班现场支持人员 按计划是时间地点到现场进行值班工作。 记录值班所需的相关表格 遇上重大事件及时通知设备负责人员 4 提交设备巡 检报告 设备维修人员 汇报设备出现的安全隐患。 提

15、交当天的值班记录和相关资料。 . . 2.1.5 系统补丁通知及推荐流程 1) 预防式补丁服务:我方在已知服务器、存储软、硬件缺陷可能导致潜在问题的情况 下,将通过配置管理或巡检等方式对用户服务器进行增补软件分析并提出版本升级 建议,并由用户进行相关业务、客户影响分析后确认进行。 2) 响应式补丁服务:当设备出现故障后,我方对故障进行分析并确认是软件缺陷所导 致的故障,我方将提供针对该软件缺陷的软件补丁程序,并由用户进行相关业务、 客户影响分析后确认进行。 服务流程图 服务流程说明 . . 序号步骤名称责任人说明 1 制定补丁通知及 推荐计划 现场支持人员 制定补丁通知及推荐计划。 判断是否有

16、由于补丁问题造成的故障。如 没有由于补丁造成的故障,将实行与预防式补丁服 务, 如由于补丁发生故障,将实施响应式补丁服务。 2 预防式补丁服务 服务台支持人 员 预防方式的补丁服务以预防、排查隐患为 主,对现有设备的安全、性能隐患制定补丁更新计 划。 3 响应式补丁服务现场支持人员 对用户所发现的故障进行处理,并且向用 户提供可处理此故障的补丁程序 4 设备故障数据统 计与分析 服务台支持人 员 在预防式补丁服务中,对以往出现故障的 设备进行统计,总结普遍的故障现象 5 配置管理与巡检 常发故障设备 现场支持人员 在预防式补丁服务中,通过配置管理与巡 检的方式, 检查系统运行情况,定位常发故障

17、设备 的位置, 查明故障发生的原因,制定相关补丁的更 新计划。 6 增补软件分析 各技术支持工 程师 结合故障数据统计结果与巡检所发现的 故障情况, 对增补软件进行评估与分析。得出适合 增补的软件列表。 7 制定版本升级建 议 各技术支持工 程师 根据分析结果制定版本升级建议与实施 计划 8 业务部门审批设备负责人 业务部门对实施计划的内容进行审核,如 发现补丁版本升级不符合要求,将返回重新制定补 丁升级计划。 9 处理和分析故障现场支持人员 在响应式补丁服务中,对故障进行的处 理,在发现可以通过更新补丁来消除隐患时,我方 将制定补丁更新计划,寻找相关的软件补丁。 . . 序号步骤名称责任人说

18、明 10 提供软件补丁程 序 各技术支持工 程师 对寻找相关的软件补丁进行测试,通过测 试后,我方将测试报告与软件补丁程序提交给用 户。 11 补丁更新实施现场支持人员 经过审批通过后,我方安装实施计划的方 案与内容,对相关设备进行补丁更新工作。 2.1.6 季度巡检流程 1) 每季度提供一次健康巡检,对设备硬件、系统运行状况进行检查,排除隐含错误或 安全隐患,并提交健康巡检报告。 2) 巡检的具体时间由双方协商确定。 服务流程 . . 服务流程说明 序号步骤名称责任人说明 1 制定季度健康巡检 计划 现场支持人员 根据要求制定监控巡检计划与方案,内容 包括巡检方式、操作步骤等。 2 业务部门

19、审批现场支持人员 业务部审批巡检计划 如服务巡检计划未能满足用户的需求,将 退回重新设定巡检计划。 3 提供健康巡检报告现场支持人员 实施设备的健康巡检。 记录巡检中发现的设备问题 提交健康巡检报告,汇报设备存在的安全 隐患。 4 排除隐含错误 与安全隐患 设备维修人员 对报告中存在安全隐患进行处理。 问题处理后将对系统进行再次检测,检查 问题处理情况。 . . 2.1.7 培训服务流程 1) 我方定期进行运行维护技术培训,并定期与业主方技术人员进行技术交流。 服务流程 服务流程说明 序号步骤名称责任人说明 1 咨询业务部门 需求 咨询受理人员 询问用户的培训需要。了解用户对培训的 要求。 判

20、断用户是否对新或难度高的技术开展 技术交流。 收集业务部门提出的培训要求。按培训要 求的内容、等级进行分类,组织相关人员开展培 训准备工作。 2 制定培训计划 与培训内容 咨询受理人员 根据培训内容、培训的深度制定培训计 划,并提交业务部门进行审批工作。 3 业务部门审批设备负责人 业务部门对培训内容进行审核工作,对培 训内容存在异议或不满意的地方,将返回修改培 训计划或培训方案。 4 安排培训议程 与材料 各技术支持工程 师 相关技术人员对培训方案的内容准备培 训资料,并安排培训所需场地与准备相关的设备 或软件。 . . 2.1.8 系统规划(非建设项目)流程 1) 根据硬件、应用软件环境完

21、成数据库的初步规划、安装配置工作。 服务流程 服务流程说明 序号步骤名称责任人说明 1 硬件、应用环境分 析 现场支持人员 对运行环境进行硬件、软件的运行分析, 检查运行环境是否符运行要求。 记录硬件、应用环境的基础参数。 2 制定实施方案技术支持工程师 根据运行环境评估与硬件、应用环境的 基础参数,制定实施方案和初步规划。 提交业务部门对方案进行审批 3 业务部门审批设备负责人 业务部门审批实施方案。 如实施方案和规划未能满足用户的需 求,将退回修改实施方案。 4 实施安装配置技术支持工程师 根据实施方案到现场进行安装、配置工 作。 . . 2.1.9 备份恢复测试流程 1) 根据业务重要性

22、及数据安全等级要求,定期对备份数据进行恢复测试,保障备份数 据完整、有效、可用。 服务流程 服务流程说明 序号步骤名称责任人说明 1 数据时效性检查技术支持工程师 技术支持工程师检查备份数据,病句业 务重要性及安全级别,判断数据的有效期,如数 据已过保存期, 我方将对系统业务数据进行备份 2 备份系统业务数据现场支持人员 对系统的数据进行全备份,以保证数据 的完整。 3 数据恢复测试技术支持工程师 对备份的数据进行恢复测试,并对相关 功能进行操作,检查数据的准确性。 如备份数据存在异常,我方将到现场排 除故障原因,分析系统故障还是备份失误导致, 如不是备份失误,我方将通知相关业务部门进行 故障

23、处理。 . . 序号步骤名称责任人说明 4 备份版本控制技术支持工程师 备份数据测试成功后,我方对备份数据 尽可能保存最近5 个版本的存档。 对备份数据进行版本控制,按系统、安 全级别、重要性、备份时间对备份数据进行存档。 2.1.10 专家现场技术支持流程 1) 包括数据库紧急救援服务。 2) 如出现故障,导致数据库不能正常工作,服务方须尽快安排资深工程师到现场先回 复应用,并保证持续跟进直到问题完全解决。 3) 如果不能解决问题, 服务方需自行请专家或其他高级技术人员对系统情况进行分析, 直至解决问题。 4) 服务方在接到现场系统维护请求后1 小时内响应,对宕机或紧急恢复等严重问题, 要求

24、立即响应并在15 分钟内到达现场。 . . 服务流程 服务流程说明 序号步骤名称责任人说明 1 现场情况调查技术支持工程师 进行紧急救援服务,安排资深工程师到 现场进行调查响应。尽快提出故障处理方案。 2 故障应急处理现场支持人员 我方根据故障的级别、安全性对故障采 取应急的处理情况。 由于设备硬件造成的故障,我方立即启 动热备件。及时恢复系统的正常运行。 由于软件或设置造成的故障,我方对设 置进行初始化操作,保证系统的正常运行 . . 序号步骤名称责任人说明 3 启动热备件技术支持工程师 根据提前准备好的设备热备件,我方对 设备进行更换和切换操作。恢复设备的运行。 4 故障设备修复设备维修人

25、员 在现场对故障设备进行一般的修复处 理,如不能处理,我方将故障设备提取回维修中 心进行维修。 5 更换备件现场支持人员 故障设备修复成功后,我方把完成修复 的设备安装回原位置。并把正式服务切换回正式 环境。 6 恢复初始化设置 技术支持工程师 对数据库的运行环境进行初始化配置操 作。恢复系统的运行环境。 7 日志文件检查技术支持工程师 检查数据库的日志,找出数据库中存在 的故障问题。 8 软件配置修复技术支持工程师 根据存在的故障问题对数据库的配置进 行修改和故障处理。 9 修复检查现场支持人员 故障修复后对故障进行检查,排查存在 的安全隐患。 . . 2.1.11 技术支持服务流程 1)

26、提供电话或现场技术咨询和技术支持服务。 服务流程 服务流程说明 序号步骤名称责任人说明 1 服务台响应咨询技术支持工程师 服务台响应用户的咨询请求,对用户做 出快速的请求响应。 了解用户的需要,提供有效的技术支持 与咨询服务。 2 现场技术支持现场支持人员 我方派出工程师到现场对用户的疑问进 行解答。 为用户现场处理用户的故障问题。 3 用户回访技术支持工程师 现场技术支持完成后,我方电话回访用 户对服务的满意度,并咨询是否需要更还现场支 持服务或变更服务 4 电话技术支持设备维修人员 如用户需要电话直接支持,我方将采用 电话的方式立即响应用户的请求,并尽可能完成 用户的需求和远程处理用户的故

27、障。 2.2 服务管理 . . 2.2.1 实施规范管理 我方按照业主方的管理制度、修理维护规范、操作指导等相关规则制度开展 修理维护服务。 为保障修理维护服务规范化的顺利执行,同时修理维护服务各个环节清晰可 追述,我方任何操作必须严格按照业主方相关流程进行操作,尽量减少对业主方 正常业务的干扰,每步操作须有明确的成果反馈记录,禁止任何不按流程处理的 任何操作,一经发现将严肃处理。 2.2.2 人员工作规范 我方对运维人员进行明确分工及职责定义,避免运维人员无序混乱工作,职 责分工需符合运行单位运维工作要求。 2.2.3 项目风险与责任 我方谨慎和用心履行合同责任,并对其员工的过失承担责任。由

28、于我方实施 人员服务不及时(没有按照合同约定时间规定)或服务操作不当,造成大量在线 数据遭受不可恢复性损失,我方应负责恢复数据,并承担所有费用。由于我方原 因服务不到位,我方应向业主方作出书面解释,并提出整改措施。造成损失的, 我方承担全部责任。 2.2.4 人员稳定性 鉴于信息系统及设备重要性以及安全保密性,我方保证服务期内修理维护团 队人员稳定,避免人员流动对业主方业务系统及设备造成安全隐患,特殊情况下 人员变动需经业主方同意后方可变动,禁止未经业主方同意人员直接变动。 2.2.5 人员质量控制 我方所派出的服务人员,应能熟练胜任相关维护工作。业主方拥有向所提供 的实施人员进行面试的权力。

29、如我方人员业务能力如不符要求,业主方有权要求 我方更换人员。服务人员资质要求如下: a)大学专科或以上学历,有3 年以上类似产品维护经验。 . . b)具有相应产品认证证书。 2.2.6 项目进度控制 我方技术服务团队每周向业主方项目管理部门提交维护工作周报,并抄送我 方项目管理部门。为了更好的让业主方了解项目的进度和目前的情况,我方将向 业主方进行以下工作: 每月提交工作月报,维护工作月报的内容必须包括以下内容:主要的已 完成工作内容、未完成工作内容、故障处理报告、维护建议及工作计划 安排。 技术服务团队每月度对相关工作进行总结提炼,提交运行维护工作月报。 技术服务团队每季度对相关工作进行总

30、结提炼,提交运行维护工作季报。 技术服务团队每年对全年工作进行总结,并对下一年度工作进行规划, 提交运行维护工作年报,协助系统管理员完成系统年度维护总结。 除上述文档整理工作外,我方承担业主方相关维护文档的修编配合工作。 2.2.7 项目安全控制 提供现场服务时,我方将确保其现场人员遵守业主方有关安全规定,前提是 我方收到业主方提供的有关安全规定。我方有为业主方保密的义务,未经业主方 许可,我方服务人员不得对业主方的业务经营数据进行增删、修改、复制、传送、 记录;我方不得向任何第三方泄露业主方业务数据内容或在公开场合引用业主方 数据。 2.2.8 质量控制 为保障服务质量及服务适应性,在服务期

31、内,我方需根据服务内容发生的变 化进行适应性的改进,并在修理维护过程中根据业主方的要求进行服务改进。 2.2.9 项目质量保证 服务质量要达到可衡量必须制定严格的服务SLA,我方在服务期开始时须与 业主方协商制定切实可行的服务SLA,并严格遵守SLA进行修理维护服务。其服 务标准如下: . . 一、紧急情况 当服务器宕机,数据库无法读写等一级紧急事件时,我方在1 小时内响应, 2 小时内协助解决该情况。并在因外部原因无法立即解决时(例如服务器所在机 房受到黑客攻击,服务器硬盘读写失败等事件),向客户报告情况并提供具体解 决的时间。并提供一套完善的应急解决方案,帮助客户及时解决突发事件,最大 程

32、度的挽救因服务无法使用导致的损失。 二、重要情况 系统服务上线过程后,有时会出现在验收过程中没有察觉的bug, 这个时候, 我方积极协助客户解决该bug,具体的响应时间根据bug 造成的影响程度而定。 根据 SLA服务标准,bug 的等级亦可进行进一步的划分并制定相应的解决方案。 这里不予以赘述。 三、标准情况 在系统部署阶段,因工作人员协作环节的不一致性,有可能出故障问题和兼 容性问题。 以及由于临时需求的变更和新增,都会对系统服务产生新的维护需求。 我方按照需求的难易性和工作量制定相应的响应标准,保证客户满意度。 四、次要情况 包括服务的小调整,如数据库、中间件的配置更替等,通常在24 小

33、时内响 应,双方商议的时间内进行解决即可。我方以SLA 服务体系为出发点,为IT 服 务提供完善、标准、科学的解决方案,尽可能不影响客户满意度。 2.2.10 制定全年的支持服务计划 我方客户经理应主动地和业主方共同协商、制定全年的支持服务计划。服务 计划包括以下主要内容: a)业务/IT 系统概况,业务系统对服务的需求 b)服务合同的工作内容,设备清单和响应服务级别 c)我方的工作团队和职责 d)支持服务的流程 e)运维服务活动的计划, 包括:增值服务实施、 服务总结报告、 回顾会议、巡检、 技术交流等 f)服务计划双方的确认 . . 2.2.11 项目总结会议 我方客户经理至少每季度会安排

34、与业主方一起召开系统运行和服务情况定 期总结回顾会议,内容包括但不限于: a)总结前一段时间服务实施的情况 b)回顾升级问题 / 重要问题的处理过程 c)听取运行单位对服务的反馈意见和服务需求 d)同业主方运维经理们讨论服务改进措施 e)讨论、修订服务计划。 2.3 维护内容 我方将根据xxx 有限公司服务器、存储设备、虚拟化服务器、A 认证系统服 务内容简要的介绍常见故障所采用的维护解决办法,在实际的应用中,我方会根 据实际情况进行相应的修改与优化。 2.3.1 服务器故障诊断 计算机故障类型以及故障的诊断手段有很多,对于服务器( IBM 服务器为例) 故障采取以下2 种诊断方式: 2.3.

35、1.1 硬 件 故 障 诊 断 诊断并排除由硬件引起的故障,先从外观上检查硬件情况,检查设备故障灯 是否有亮。各种设备上都有故障指示灯,通常为橙色并有标记。对于高端服务 器, 应检查 UEPO 开关上的系统故障指示灯是否亮,检查部件故障灯, 如 I/O drawer 、 PCI 卡,硬盘等。 所有安装的部件(如CPU book)所对应的绿色LED应长亮。任何故障指示 灯(橙色)都应不亮,设备发生故障时通常伴有出错代码,必须把所有故障代码 记录下来。除此以外还应注意有否其他异常情况(如硬盘、风扇异常的声音、电 缆破损、系统出风是否顺畅、气流是否因为异物遮挡而影响散热效果等)。? 检查服务器网卡状

36、态、IP 地址是否正常。网卡的设置应与交换机端口的设 置匹配。检查网卡通信是否正常,如是否丢包,速度是否正常等。并且检查路由 表是否正常、/etc/hosts文件或 DNS设置是否正常等。 . . 2.3.1.2 软 件 故 障 诊 断 诊断并排除由软件(操作系统和应用软件等)引起的故障可以先查看系统日 志相关软件报错的记录,同时登录软件检查当前应用使用状态、软件应用进程等 进行多方面的诊断。 2.3.2 检测服务器、存储设备运行情况 对于一个系统而言资源总是有一定限度的,而任务总是要消耗系统资源的。 关键是要找出哪些资源不能满足应用程序运行的需求。这里存在一个性能瓶颈的 问题。不同的应用程序

37、可能会有不同的资源要求,可能会产生不同的瓶颈。系统 资源中的CPU 、内存、磁盘或是网络都有可能成为瓶颈。系统性能调优需要找出 这些资源成为瓶颈的原因,是资源的不足,是系统设置不合理,还是应用程序的 问题。 查找性能瓶颈的顺序非常重要,正确的顺序是:CPU 内存 I/O 网络, 如下图所示: CPU 瓶 颈 否 是 采取对策 内存瓶颈 否是 采取对策 I/O 瓶颈 否 采取对策 是 采取对策 网络瓶颈 是否 继续测试 采取对策 . . 2.3.2.1 查 看 CPU瓶 颈 通过查看当前服务器CPU使用情况判断CPU的使用情况, 一般情况下CPU使 用率不应该长期超过80% ,如出现CPU使用率

38、长期处于甚至超过80% 的情况,则 初步可判断CPU资源不足,出现瓶颈。 2.3.2.2 检 测 内 存 问 题 部分厂商服务器在内存使用上模式默认最大化使用,因此内存的使用率不能 作为是否存在内存瓶颈的依据。如果达到内存瓶颈,此时检查系统内存交换区的 使用,会发现使用率较高。 由于有大量的内存页面写入内存交换区,这会导致wa( I/O 等待)值上升, 但此时并非I/O 瓶颈引起。 当内存交换区使用率超过70% 时需要增加交换区的大小。但增加内存交换区 的大小并不会提高系统的性能。相反,内存交换区使用越多,系统性能下降越多。 当内存不足时,正确的方法是增加物理内存的数量或优化应用程序。 2.3

39、.2.3 查 看 系 统 的 I/O情 况 磁盘的数据流量很大程度上与应用程序的I/O 方式相关。某些应用程序的 I/O SIZE可能非常低,而且产生大量的随机读写操作,从而使硬盘的读写效率 大大降低,导致CPU的 I/O 等待增加。 有时 I/O 问题是 I/O 带宽不足引起的。当所有连接在一块I/O 卡上的硬盘的 流量总和达到I/O 卡带宽的70% 以上时,应考虑增加更多的I/O 卡。 数据的分布也是很重要的因素。通常把数据分布到更多的硬盘上更有利于提高 I/O 性能。 2.3.2.4 查 看 网 络 的 情 况 : 对于网络问题可以通过检查服务器端口情况、网线速率、端口模式,甚至通 过服

40、务器与服务器、服务器与测试设备之间进行链路测试、传输速率测试检测服 务器网络上的问题,必要时需要网络工程师检查交换机层面的健康情况加以分析 判断。 . . 如果都没有发现系统有资源上的瓶颈,则很可能是应用程序的问题,需要应 用程序开发商进行进一步的分析。 2.3.3 服务器备件检修 服务器备件保修主要以更换设备为主,并对造成备件故障的原因作出分析,最后通 过分析的故障结果。 对所有故障进行排查, 不能单单只是更换备件这么简单,服务器备 件一旦发生故障不一定是其本身问题,极大情况下是外部环境所造成。因此,服务器备 件检修需要考虑其使用环境,从根本上解决故障问题,防止其它备件的损坏。 2.3.3.

41、1 服 务 器 备 件 硬 件 故 障 维 修 对于一般的设备硬件的故障,我方采用以下方式采取维修处理: 序号故障类型维修方式操作方式 1 内存条损坏直接更换现场更换 2 主板元器件损坏直接更换现场更换 3 阵列损坏 先进行数据恢复,再更 换硬盘 数据恢复需离 开现场。 备件现场更换 4 电源损坏直接更换现场更换 5 指示灯损坏 先检测健康状态,再更 换指示灯 现场更换 6 CPU 风扇损坏直接更换现场更换 7 数据线损坏直接更换现场更换 8 CPU 损坏直接更换现场更换 9 光驱损坏直接更换现场更换 10 电源线损坏直接更换现场更换 11 相关数据接口损坏直接更换主板现场更换 2.3.3.2

42、 服 务 器 软 件 故 障 维 修 对于服务器的软件方面故障,我方采用以下方式采取维修处理: 序号故障类型维修方式操作方式 1 系统崩溃重装操作系统现场操作 2 中木马病毒安装杀毒软件杀毒远程操作 3 驱动不匹配安装正确的驱动远程操作 4 软件不兼容安装兼容软件远程操作 . . 2.3.3.3 服 务 器 备 件 修 复 与 后 续 保 养 如以下因素导致备件的故障, 我方在处理完备件的维修后, 再对备件周边的环境进 行保养处理工作。具体可参考以下几个方面: 服务器备件受潮短路。 备件受潮湿因素导致的故障, 我方对服务器周边的环境进行除湿处理。主要以空调 除湿或吸湿海绵为主。 服务器备件受过

43、热短路。 备件受过热短路因素导致的故障,我方对服务器周边的环境进行降温处理。主要以 空调降温或更换服务器散热风扇。 服务器备件积尘导致短路。 备件积尘短路因素导致的故障, 我方对服务器周边的环境进行除尘处理。主要以吸 尘机或毛刷工具为主。 服务器备件是否电源电压不稳定造成短路。 备件电源电压不稳短路因素导致的故障,我方对服务器周边的环境进行电压检测, 看是否有漏电的情况,并更换电源。 2.3.4 特保服务 我方按照公司要求, 对于特殊时期必须保障设备运行,并根据业主方要求驻场值守 和服务,完成特殊时期保障任务。并且每年安排约有2 个月的特保时间。 2.3.4.1 特 保 服 务 常 规 服 务

44、 内 容 我方值班人员要认真检查设备的运行情况,包括电源、服务器指示灯及一切隐 患。确保服务器设备的一切安全。 做好安全监控工作。预防各种事故和事件的发生。 检查软件的日志文件是否完整。 检查设备的电压及温度。 值班人员做好值班记录,并记载重要事情。 有重大问题及时向上级设备管理人员报告。 2.3.4.2 特 保 服 务 工 作 责 任 我方值班人员值班期间,不能脱岗,认真值班。全天24 小时确保有人在值班 . . 监控设备的运行。 做好交接班等有关工作。 值班人员要做好安全防范工作, 遇设备周围环境的变化, 应及时做出相应处理; 保证值班人员人员及相关技术工程师的电话畅通。 坚守值班岗位,不

45、擅离职守。时刻提高警惕,做好值班期间的工作。 值班严格按照操作手册执行,不违反值班制度和操作章程。 值班人员在特殊假日放假值班期间为设备运行及安全工作的第一责任人。 2.3.4.3 特 保 服 务 保 证 值班人员提高自觉性与主动性,确保设备安全、稳定运行。 在值班期间坚守工作岗位,不得无故让他人替岗,严禁饮酒。 值班期间保证电话畅通,遇到重大事情,必须报告上级领导并做好临时处理措 施,积极处置。 认真做好值班记录,对设备异常及安全防火情况等,必须认真检查。 值班员工在值班时间内,坚守岗位,不迟到、早退和缺岗。 2.3.5 系统补丁通知及推荐 我方将对以下补丁采取相关的补丁更新通知与补丁更新操

46、作的服务。并对需更新的 补丁进行测试工作。以下系统补丁服务的相关内容。 2.3.5.1 补 丁 收 集 与 整 理 我方对以下补丁通过不同的途径进行补丁资源的收集,补丁的出处要求是官方的补 丁,如补丁不是官方提供,将对非官方补丁进行测试。 序号故障类型收集方式收集途径 1 服务器硬件 BIOS 补丁服务器厂商提供由官方通知 2 存储设备补丁服务器厂商提供由官方通知 3 Windows 操作系统补丁微软官方网站微软最新公告 4 Linux 操作系统官网或论坛论坛公告 5 Aix 操作系统补丁IBM官方网站IBM官方网站公告 6 Unix操作系统补丁官网或论坛论坛公告 7 Oracle 软件补丁官

47、网或论坛论坛公告 8 Weblogic软件补丁官方网站官网公告 . . 9 Tomcat软件补丁官网或论坛现场更换 10 其他软件补丁官网或论坛现场更换 11 2.3.5.2 补 丁 更 新 测 试 补丁更新之前 , 有必要对其进行完整的测试, 确保其适合于当前运转的设备或系统, 否则有可能带来不必要的麻烦。但是对补丁进行测试是一项繁琐的工作, 我方使用测试 技巧和脚本 , 快速有效地测试补丁。 为针对如此多的产品以及不同版本的补丁,我方使用一套自动化补丁测试过程,建 立一套完整的系统环境,模拟设备或系统的运行状态,确保补丁更新测试的可行性。 2.3.5.3 补 丁 更 新 操 作 在部署补丁

48、之前 , 我方确保已进行补丁测试, 以确保它们不会破坏系统现有的功能。 在补丁测试前对系统或相关资源进行备份处理,确保补丁更新万无一失, 并且我方有专 业的专家支持,在补丁更新出现故障时,保证能快速有效进行系统恢复。 2.3.6 月度巡检 为了更好地落实现巡检工作, 我方制定了月度巡检工作, 并对月度检查做出书面报 告。进一步保障了设备正常运行和预防了设备发生故障事故的风险。同时,通过月度巡 检能尽早的发现安全隐患。具体措施如下: 2.3.6.1 月 度 巡 检 检 查 月度巡检检查主要包括设备周边环境、周边设备、 通讯及网络设备、 服务器设备的 检查,其检查内容如下: 设备周边环境检查 检查

49、设备周边的温度是否正常、痕迹是否存在异常、有否异响、温度是否正常、清 洁是否符合要求、是否存在异味等。 设备周边设备检查 检查 UPS电源是否正常、 空调是否正常、 电池组是否存在异常、 消防是否符合标准 和要求等。 通讯及网络设备检查 防火墙及流量控制方面, 网络通讯状态是否正常、 网络流量是否过多等。 而网络口 . . 检查主要包括数据指示灯有否异常、网络通讯状态是否正常、 端口及网线状态是否正常 等。 服务器设备的检查 服务器硬件故障灯是否正常、 如发生故障将记录详细的故障现象与解决方法,补丁 是否已经更新、 防病毒软件的病毒库是否已经升级、文件系统是否出现错误, 日志文件 的设置及运行是否正常,磁盘卷组是否存在失效状态。 2.3.6.2 巡 检 数 据 整 理 经过季度巡检后, 我方将把巡检的记录进行同一的整理,把巡检中发现的故障或异 常情况进行统计与分析, 形成季度巡检记录。 并将总体的巡检记录提交给设备管理员或 业务部门。 2.3.6.3 提 供 健 康 巡 检 报 告 通过对季度巡检发现的故障数据进行分析,结合目前业主方已用的资源与工具,提 供完整的健康巡检报告与可行的故障解决方案。解决方案内容需要业主方进行审核。并 对存在的问题我方能提供专业技术支持解答。 2.3.7 培训服务 为了保证设备能在运行中良好工作和人员的运维水平,提供有针对性专业技能培训

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1