机房类运维服务方案(可借鉴).pdf

上传人:tbuqq 文档编号:5225046 上传时间:2020-02-26 格式:PDF 页数:58 大小:582.06KB
返回 下载 相关 举报
机房类运维服务方案(可借鉴).pdf_第1页
第1页 / 共58页
机房类运维服务方案(可借鉴).pdf_第2页
第2页 / 共58页
机房类运维服务方案(可借鉴).pdf_第3页
第3页 / 共58页
机房类运维服务方案(可借鉴).pdf_第4页
第4页 / 共58页
机房类运维服务方案(可借鉴).pdf_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《机房类运维服务方案(可借鉴).pdf》由会员分享,可在线阅读,更多相关《机房类运维服务方案(可借鉴).pdf(58页珍藏版)》请在三一文库上搜索。

1、十四、服务方案 一、 机房及设备维护方案与计划 1、预防性检查 1.1 巡检时间 每个工作日上午9 点 1.2 、巡检地点 计算机机房、精密空调、UPS 1.3 、巡检目的 进行机房检查, 对机房设备及供电系统、UPS 系统、精密空调系统、 录像系统等设备进行检查, 及时发现设备隐患,排除故障。 1.4 、巡检要求 1.4. 1.巡检期间,进行状态检查,若发现问题,如计算机机房物理环境异常、精密空调异常、 UPS 及配电系统异常等,应按照应急预案及操作流程进行处理。 (1)电源、 UPS :检查机房供电状况,UPS 工作情况、指示状态。检查UPS 蓄电池使用状态,确 保蓄电池无松动。并使用温度

2、枪进行检测物理温度。确保配电柜及UPS 、蓄电池无温度过高现象。 (2)机房环境:检查机房卫生状况及物理环境。 (3)机房温度:检查温湿度,将温湿度控制在一定范围内。温度:22 5,湿度 60%. (4)机房空调:空调运行状态、空调内部有无漏水现象、空调噪音、空调风量等。 (5)机房照明:机房照明系统是否正常,有无异常状况。 (6)机房 PDU :PDU 市电或 UPS 是否正常,使用温度枪进行检测外部物理温度。 (7)机房整体:检查机房其余设备运行状态,有无报警及指示灯异常状态。 1.4. 2.如果故障按恢复规程无法有效恢复,特别是当发生机房环境(动力、空调)故障、关键 的设备、网络、系统、

3、服务如无法及时恢复时,应立即通知甲方相关领导,由相关领导协调资源进 行故障处理。 1.4.3. 故障处理过程必须在机房日常巡检表的备注栏中详细记录,以备查阅。 1.5 、计算机机房现场管理要求 1.除工作人员外, 其他工作人员进出机房,需签字后方可进入,同时计算机机房人员要在现场, 检查监督其人员工作,避免其他人员未经授权擅自接触机房物理设备。 2.机房的机柜、线缆、设备等的标签管理; 3.机房环境清理。 1.6 每日检查内容列表 项目性能检查内容脆弱性检查内容 空调系统 高压压力、低压压力(风冷系统),冷冻 水压力、温度,冷却水压力、温度(水 冷系统),风机运行情况,滤网、内机排 水系统、灰

4、尘情况等。 机房热点情况、室内机漏水检 查、室外风机运转情况、加湿 罐阳极棒检查、 过滤网检查等。 供配电系统 输入输出功率,输入输出电流、断路开 关、接地电阻、零序电流、器件发热情 况等。 导线、器件发热情况,断路开 关、防浪涌器件情况等。 UPS 系统 负载功率情况、器件发热情况、电池情 况(外观、液位、接线柱)等。 器件、导线发热情况,电池放 电时间等。 安全系统 录像备份管理、出入机房登记、器件灵 敏度、画面清晰度(不同照度情况下)、 云台运行等。 器件灵敏度、监控死角问题等。 设备运行 机房环境 查看设备运行指示灯、机房照明运行情 况、机房环境 设备运行是否有报警情况、照 明是否正常

5、、机房卫生是否整 洁等 2、现场故障维修 每日巡检过程中,如有发现设备及环境系统有故障状态,需进行记录并恢复故障状态。如不能立 即恢复故障状态,则需进行应急预案处理。具体如下: 2.1 环境故障:卫生、温湿度、照明。(四级故障) 2.2 交换机故障:交换机蜂鸣,交换机启动不正常,指示灯异常。(三级故障) 2.3 空调故障:空调压缩机故障、空调冷凝水故障、空调漏水故障、空调制冷故障、空调加湿器故 障等。 (二级故障 2.4 UPS 故障: UPS 逆变故障、 UPS 旁路、 UPS 蓄电池温度、 UPS 蓄电池外观鼓包现象、UPS 蜂 鸣报警等(一级故障) 2.5 配电柜故障:配电柜内温度过高、

6、配电柜打火现象等。(一级故障) 在解决故障时,最大限度做好故障恢复的文档,力争恢复到故障点前的业务状态。对于“系统瘫 痪,业务系统不能运转”的故障级别,如果不能于30 分钟内解决故障,应立即提出应急方案,确保 业务系统的运行。故障解决后24 小时内,提交故障处理报告。说明故障种类、故障原因、故障解决 中使用的方法及故障损失等情况。故障类型、级别及相应标准列表: 故障级别响应时间 故障解决 时间 I 级:属于紧急问题;其具体现象为:机房出现电力 事故等意外情况导致业务停止、UPS 系统崩溃导致 业务停止、空调系统崩溃导致业务停止。 电话立即响应, 5 分钟内人 员抵达现场, 30 分钟内恢 复业

7、务使用, 2 小时内提交 12 小时以 内 II 级:属于严重问题;其具体现象为: 出现部分部件失效、系统性能下降但能正常运行,不 影响正常业务运作。 电话立即响应, 5 分钟内抵 达现场, 1 小时内提交故障 处理方案 24 小时以 内 III 级:属于较严重问题;其具体现象为:出现系统报 错或警告,但业务系统能继续运行且性能不受影响。 电话立即响应, 5 分钟内抵 达现场, 2 小时内提交故障 处理方案 48 小时以 内 IV 级:属于普通问题; 其具体现象为: 系统技术功能、 安装或配置咨询。 电话立即响应,30 分钟内 抵达现场, 2 小时内提交故 障处理方案 3 天内 3、后台故障维

8、修 后台故障状态维修,需要在甲方允许的情况下,对设备进行维护及维修。 3.1 质保期内的设备由我方查找故障原因并填写故障申请单,交由甲方进行协调处理,并协助 甲方进行故障排除及维修。如需联系厂商,则由我方负责。 3.2 三级及四级故障状态,我方可自行进行维护和维修的设备,报由甲方同意后,我方自行进 行设备维修,更换零配件部件等,并将维修记录保存文档交由甲方及我方双方管理。 3.3 质保期外的设备出现故障,则由我方统一进行维修,费用由我方负责。并将维修记录报由 甲方确认并存档。 3.4 设备更换 对于无法修复的设备,在合同有效期内,经甲方审核,由乙方负责整体更换同型号或类似型号 的产品,无法维修

9、的设备交由甲方。更换单个备品备件费用大于等于500 元时,报甲方审核同意, 备品备件费用由甲方承担; 更换单个备品备件小于500 元时 ,备品备件费用由乙方承担,质保期内由 供货商(厂商)进行更换的除外。 4、资产管理 4.1 对硬件设备型号、数量、版本等信息统计记录 4.2 对软件产品型号、版本和补丁等信息统计记录 4.3 对机房设施设备连接统计记录 4.4 对综合布线系统结构图的绘制 4.5 对机房更换设备连接统计记录 4.6 每月向甲方上报低值易耗品记录,包括仓库存储情况、耗材使用情况。 4.7 机房更新及更换设备的统计 4.8 机房维护设备及备品备件的管理及记录 5、应急处理 随着网络

10、信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突 发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常 运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、 职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程 度减轻到最低,确保员工安全,特制定本应急处置预案。 本预案共分为应用系统故障应急流程和机房突发事件应急流程 系统故障应急流程 一、系统故障应急流程说明 1、故障发生 系统运维服务小组可从以下途径得知故障的发生: 1.1 、运维服务中心通过网管告警发现故障

11、1.2 、维护站点通过维护巡检发现故障 1.3 、用户发现故障,报给呼叫中心 1.4 、驻场工程师发现故障 2、报障受理 监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障 情况。 3、信息研判 运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立 即启动系统突发故障应急处理预案。 4、预案启动 如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启动应急预案,对系 统突发故障应急事件进行全面管控处理。 5、资源确认 系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备 品备件等情况对相关资

12、源(主要是参与人员)依据经验进行调度和确认,主要有以下资源: 我公司技术支持人员; 相关厂家技术支持人员; 我公司聘请的技术专家 6、预案执行 按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急领导小组汇报。 7、预案终止 预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后 报系统突发故障应急领导小组决定。 8、结果上报 预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案。 然后集中上报至系统突发故障应急领导小组。 二、系统故障应急处理流程图 机房突发事件应急流程 一、机房突发事件分类 1、自然灾害:指地震、火灾等因自

13、然因素引起的网络与信息系统的损坏。 2、事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。 3、人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络 与信息系统的损坏。 二、应急处理人员组织机构 三、应急机构人员岗位职责 1、应急总指挥职责 1.1、保证在任何时间,及时协调应急行动所有涉及的岗位人员; 1.2、提供必须的紧急响应设备; 1.3、在紧急情况下全面负责紧急行动; 1.4、在必要时向外界求救,例如:119、110、120 等。 2、应急副总指挥职责 2.1、在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责; 2.2、根

14、据获得的应急信息下达命令。 3、各相关设备负责人职责 3.1、负责尽快收集信息向应急总指挥汇报事故情况; 3.2、负责现场临时设备抢救和对事态的控制; 3.3、听从上级指挥人员的指挥。 四、突发事件处理原则 1.预防为主。立足安全防护,加强预警,重点保护基础信息网络和关系信息安全、稳定的重要 信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施 充分发挥各方面的作用,共同构筑安全保障体系。 2.快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判, 果断决策,迅速处置,最大程度地减少危害和影响。 3.分级负责。按照“谁主管,谁负责”的

15、原则,建立和完善安全责任制及联动工作机制。根据各负 责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。 4.以人为本。把保障人员以及公共利益的安全作为首要任务。 5.常备不懈。加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预 案切实有效,实现网络与信息安全突发公共事件应急处置的科学化、程序化与规范化。 五、机房应急开关机具体措施 机房各设备关闭顺序如下: 六、机房日常维护 1、建立健全机房管理制度 1.1 在正常工作日内,信息技术部人员负责对机房进行监控,主要职责是: 巡视网络设备及系 统的运行情况,发生异常情况及时处理,消除网络故障隐患。

16、1.2 节假日期间技术人员轮流值班,负责处理有关异常情况。 1.3 机房采取来人来访登记制度,未经允许,无关人员不得进入公司机房区域。 2、机房内严格采取防雷、防火、防尘、防静电等措施以及机房24 小时监控等措施。 3、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。 4、对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况 应及时进行处理,确保整个网络的正常运行。 七、服务器及存储设备故障处理 1、排错流程 2、应急处置具体措施 2.1 机房漏水应急预案 ( 1)发生机房漏水时,第一目击者应立即通知运维服务小组,并及时报告监控系统突发

17、故障应 急领导小组。 ( 2)若空调系统出现渗漏水,运维服务小组负责人应立即安排停用故障空调,清除机房积水, 并及时联系设备供应方处理,同时启动备用空调, 必要情况下可临时用备用空调对服务器进行降温。 ( 3)若为墙体或机房门渗漏水,运维服务小组负责人应立即采取有效措施确保机房安全,及时 清除积水,维修墙体或门窗,消除渗漏水隐患。 2.2 设备发生被盗或人为损害事件应急预案 ( 1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告系统突发故障应急领导 小组,同时保护好现场。 ( 2)系统突发故障应急领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情 况,清点被盗物资或盘查

18、人为损害情况,做好必要的影像记录和文字记录。 ( 3)事发单位和当事人应当积极配合公安部门进行调查,并将有关情况向系统突发故障应急 领导小组汇报。 ( 4)系统突发故障应急领导小组安排运维服务小组、事发单位及时恢复系统正常运行,并对事 件进行调查。 运维服务小组和事发单位应在调查结束后一日内书面报告系统突发故障应急领导小组。 事态或后果严重的,应向相关领导汇报。 2.3 机房长时间停电应急预案 ( 1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以 下方案进行处置: ( 2)当机房发生市电供电突然停电或是电源异常时。首先应和后勤部门联系确认正常停电以 及预计停电

19、时间。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及 时将空调等不在UPS 电源供电范围内的设备及时断电,预防突然来电时瞬间电流过大导致设备损坏 等现象。 (3)当确定停电时间超出机房UPS 承载范围后,首先确定停电的范围以及受影响的设备范 围。并及时通知各部门做好停电应急准备。然后通知机房电源维护人和设备的负责人到达现场,做 好各设备的电源停电准备。在 UPS 供电电量仅剩10%之后,严格按操作手册停掉各服务器的电源, 最后停核心交换机和路由器,等待电力恢复。 ( 4)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人 员达到现场检修。对于

20、恢复时间无法预计的,要通知后勤部门做好柴油机发电及移动电源车供电准 备 ( 5)恢复供电后,严格按照操作程序逐步恢复机房设备和UPS 的供电,以防瞬间电流过大造 成设备损坏。 2.4 通信网络故障应急预案 ( 1)发生通信线路中断、路由故障、流量异常、域名系统故障后,操作员应及时通知本单位信 息系统管理员,经初步判断后及时上报运维服务小组和系统突发故障应急领导小组。 ( 2) 运维服务小组接报告后,应及时查清通信网络故障位置,隔离故障区域,并将事态及时 报告系统突发故障应急领导小组,通知相关通信网络运营商查清原因;同时及时组织相关技术人员 检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通

21、信网络,保证正常运转。 ( 3) 事态或后果严重的,应向应急指挥办公室和相关领导汇报。 ( 4)应急处置结束后,运维服务小组应将故障分析报告,在调查结束后一日内书面报告系统突 发故障应急领导小组。 2.5 不良信息和网络病毒事件应急预案 ( 1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒 传播,并报告指挥调度中心运维服务小组和系统突发故障应急领导小组。 ( 2)运维服务小组应根据系统突发故障应急领导小组指令,采取隔离网络等措施,及时杀毒或 清除不良信息,并追查不良信息来源。 ( 3)事态或后果严重的,应向监控中心办公室和相关领导汇报。 ( 4)处置结束后,运

22、维服务小组应将事发经过、造成影响、处置结果在调查工作结束后一日内 书面报告系统突发故障应急领导小组。 2.6 服务器软件系统故障应急预案 ( 1)发生服务器软件系统故障后,运维服务小组负责人应立即组织启动备份服务器系统,由备 份服务器接管业务应用,并及时报告系统突发故障应急领导小组;同时安排相关责任人将故障服务 器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据。 ( 2)运维服务小组应根据系统突发故障应急领导小组的指令,在确认安全的情况下,重新启动 故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联 系相关厂商和上级单位,请求技术支援,作好技

23、术处理。 ( 3)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。 ( 4)处置结束后,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统 突发故障应急领导小组。 2.7 黑客攻击事件应急预案 ( 1) 当发现网络被非法入侵、网页内容被篡改, 应用服务器上的数据被非法拷贝、修改、删除, 或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告系统突 发故障应急领导小组。 ( 2)接报告后,系统突发故障应急领导小组应立即指令运维服务小组核实情况,关闭服务器或 系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的

24、 通道。 ( 3)运维服务小组应及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应 向监控中心应急指挥办公室和相关领导汇报,并请求支援。 ( 4)处置结束后,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统 突发故障应急领导小组。 2.8 核心设备硬件故障应急预案 ( 1)发生核心设备硬件故障后,运维服务小组应及时报告系统突发故障应急领导小组,并组织 查找、确定故障设备及故障原因,进行先期处置。 ( 2)若故障设备在短时间内无法修复运维服务小组应启动备份设备,保持系统正常运行;将故 障设备脱离网络,进行故障排除工作。 ( 3)运维服务小组故障排除后,在网络空闲时

25、期,替换备用设备;若故障仍然存在,立即联系 相关厂商,认真填写设备故障报告单备查。 ( 4)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。 2.9 业务数据损坏应急预案 ( 1) 发生业务数据损坏时,运维服务小组应及时报告系统突发故障应急领导小组,检查、备 份业务系统当前数据。 ( 2)运维服务小组负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份 数据,若磁带机数据仍不可用,则调用异地备份数据。 ( 3) 业务数据损坏事件超过2 小时后,运维服务小组应及时报告系统突发故障应急领导小组, 及时通知业务部门以手工方式开展业务。 ( 4)运维服务小组应待业务数据系统恢

26、复后,检查历史数据和当前数据的差别,由相关系统业 务员补录数据;重新备份数据,并在工作结束后一日内报告系统突发故障应急领导小组。 2.10 雷击事故应急预案 ( 1) 遇雷暴天气或接上级部门雷暴气象预警,运维服务小组应及时报告系统突发故障应急领 导小组,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作。 ( 2) 雷暴天气结束后, 运维服务小组报经系统突发故障应急领导小组同意,及时开通服务器, 恢复内部计算机网络工作,对设备和数据进行检查。 ( 3) 因雷击造成损失的,运维服务小组应会同相关部门进行核实、报损,并在调查工作结束 后一日内书面报告系统突发故障应急领导小组。必要时,

27、应向监控中心应急指挥办公室和相关领导 汇报。 2.11 空调设备故障应急预案 若机房专用空调损坏,应第一时间启用机房备用空调,并通知厂家上门进行维修,并及时报告 信息部相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。 2.12 火灾事故应急预案 (1)一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安 全;三是保护一般设备安全; ( 2)人员疏散的程序是:机房工作人员立即按响火警警报,并通过 119 电话向公安消防请求支 援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出; ( 3)人员灭火的程序是:首先切断所有电源,启动自动喷

28、淋系统或使用灭火器,灭火值班人员 戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。 2.13 电源设备故障应急预案 机房目前使用UPS 系统,在紧急情况发生时,应按如下步骤进行关机: ( 1)确认所有负载均已安全关机。 ( 2)关闭 UPS 负载电源。 ( 3)将 UPS 的系统启用开关切换到off 的状态。 ( 4)将电池连接断路器切换到off 的位置。 6、保密管理要求 为科学、有效地管理机房,促进网络系统安全的应用、高效运行,特制定本规章制度,请遵照 执行。 一、机房管理 1、路由器、交换机和服务器以及通信设备是网络的关键设备,须放置计算机机房内,不得自行配置 或更换,更不能挪作它用。

29、2、计算机房要保持清洁、卫生,并由专人7 24 负责管理和维护(包括温度、湿度、电力系统、网络 设备等 ),无关人员未经管理人员批准严禁进入机房。 3、严禁易燃易爆和强磁物品及其它与机房工作无关的物品进入机房。 4、建立机房登记制度,对本地局域网络、广域网的运行,建立档案。未发生故障或故障隐患时当班 人员不可对中继、光纤、网线及各种设备进行任何调试,对所发生的故障、处理过程和结果等做好 详细登记。 5、做好操作系统的补丁修正工作。 6、网管人员统一管理计算机及其相关设备,完整保存计算机及其相关设备的驱动程序、保修卡及重 要随机文件。 7、计算机及其相关设备的报废需经过管理部门或专职人员鉴定,确

30、认不符合使用要求后方可申请报 废。 二、机房安全保密制度 1.机房所有人员必须严格遵守公司各项安全保密制度,高度重视信息系统的安全保密工作,积极参 加各种形式的安全保密工作的学习培训活动,接受安全检查。机房信息系统涉及全公司的管理、业 务等企业核心信息,维护人员不得窥探、抄录、复制;不得转告与工作无关的人员;不得随意向外 界透露。操作人员未经财务审批不得私自动用、开设、查看、变更营业软件。 2.机房所有人员未经允许不得访问信息系统中用户信息、公文、报表、邮件等属于授权访问数据信 息或私人信息。 3.机房所有人员未经授权,不得私自修改、查阅系统的有关信息。 4.严格遵守帐号口令管理制度和安全操作

31、条例,根据访问数据级别使用相应权限的口令进入系统; 不得窃取、破译他人权限密码。 5.机房所有人员未经允许不得擅自抄录、复制设备图纸、电路组织资料、内部文件、系统软件、技 术档案、用户资料,也不得擅自带离机房,使用后归还原处。 6.各种涉及密级的图纸、资料、文件等应严格管理,认真履行使用登记手续。IP 地址及密码等涉密 信息不得让无关人员轻易获取。 7.机房内重要保密文件、数据的销毁,应使用碎纸机进行销毁,不得任意丢弃。 8.机房内部的废弃设备、测试数据由仓管部门统一保存和处理。 9.机房所有人员严格遵守通信纪律,增强保密意识和法制观念,不得随意监测用户通信。 10. 机房内部所有维护和管理人

32、员,均应熟悉并严格执行安全保密规定。 7、人员管理要求 参照甲方的有关工作制度进行人员管理,如作息时间、着装、考勤等。人员派驻须经过甲方的 审核,人员更换须在招标人进行备案。 对维保人员的管理员应按照甲方的要求和标准来进行执行。人员具体职责如下: 一、硬件维护人员岗位职责: 1及时高效地完成分配的硬件维修等各项任务,保证硬件的正常工作。 2维护人员要熟悉计算机原理和操作规程,熟悉仪器仪表使用方法。维护工作应遵循微机故障与 维修的操作步骤、基本原则和维修方法进行。 3经常检查供电系统是否正常,电器连接点是否牢固,用电器温度有无异常;检查机箱、显示器 上的开关是否完好。对键盘、鼠标等易损件进行常规

33、检查;对硬件系统进行外观和静态检查;对微 机系统进行全面的动态检查,发现问题及时解决。 4寒假、暑假或长期不用期间,要定时对其进行开机上电操作,以使机器内部保持干燥。 5寒假、暑假或长期不用期间,要使用塑料袋将主机、显示器及网线接头等严密包裹起来,避免受 潮。 6网络连接线路在使用过程中会出现各种故障,如某一工作站不能连接上网或一组工作站不能连 接上网,这需要维护人员熟悉网络拓扑结构,通过检查网线、网络连接点、网卡、服务器以及集线 器、交换器等网络设备,找出故障点给予排除。 7当硬件发生故障时,及时排除故障,尽快恢复系统的运行。 8定期进行硬件的例行维护,建立每台机器的维护档案。 9每次维修必

34、须进行登记,包括更换的设备和配件。 10积极参加业务学习,不断提高业务水平。 二、软件维护人员岗位职责: 1及时高效完成软件维护等各项任务,保证计算机系统的正常运行。 2日常维护保养时,开机关机一定要严格遵守操作规程,不可随意进行, 特别在微机运行过程中不 能随意冷启动机器。机器运行当中,软件维护人员应时刻观察有无异常情况,及时发现及时处理。 3软件维护人员应备有各种工具软件、常用应用软件、 操作系统软件和程序语言软件并留存实验中 心一份。 4软件维护人员平时要实时、定期对计算机病毒进行查杀。及时对杀毒软件进行升级,保证杀毒的 有效性。要从预防病毒入手,对外来的软件或文件应事先查杀再使用。断绝

35、病毒传播途径。 5积极协调硬件维护人员排除硬件故障。 6平时应根据实验内容和计算机技术发展水平及时调整和更新网络中的各种软件,以适应运用计算 机进行教学的需要。 7平时要做好系统保护与数据备份工作,系统出现问题后能够快速恢复。 8认真参与业务学习,不断提高自身的软件维护水平。 9作好软件的安全保密工作。 8、定期检查方案与计划 8.1. 定期维修 定期维修是按时间计算,应对机房和机房设备作定期检修。维修应包括以下内容: 1 )对机房内部和周围环境作一次彻底性的清理,把卫生搞好。 2)对机房内所有设备作一次清洗,除尘。 3)对空调设备、新风设备的过滤装置作一次清洗。 4)排除设备在使用时出现的故

36、障和缺陷。 5)检查、测试机房电源系统工作的情况,并做好登记。 6)检查、测试机房空调设备工作的情况,并做好登记。 7)其它检查。 8.2. 换季维修 换季维修是在每年进入夏季之前和进入冬季之前为保障机房及 机房设备在盛夏和严冬能正常使用而进行的预防性检查。换季维修 应包括以下内容: 1 )完成定期维修的内容。 2)对空调设备中的蒸发器、冷凝器进行一次大清洗、大检查。 3)检查并排除影响冷凝器散热效果的障碍。 4)检查空调设备加湿水的供应状况。 5)检查空调设备冷凝水的排泄管道是否畅通,有无异物堵塞。 6)检查加热装置的工作状况。 7)检查各种电缆、导线的固定,走向及通电后温升情况是否符 合要

37、求。 8)检查各种安全设备、防火设备及报警设备的工作状况。 9)夏季到来之前,还应检查机房防水(或雨水 )浸入室内措 施落实的情况。 10 ) 其它检查。 8.3. 重大任务开始前检修 在重大任务开始前,为了保障机房及设备正常运行,为顺利完 成重大任务提供可靠的环境而进行的检修。主要应包括: 1 )完成季节性检查的维修内容。 2)根据任务的要求,定向检查一些有关设备的情况。 3)为了保障重大任务约完成,临时增设一些设备的安装和调 试。 4)其它有关的检查维修。 8.4. 定期中修 计算机机房及其设备经过一段较长时间的连续使用,机件的磨损和自然老化,会使机房和设备存在 一些问题,为了保障机房和设

38、备进一步使用,必须认真地对机房和设备进行维修。设备连续使用 10000 小时左右要进行中修,其主要内容有: 1 )机房的结构,外部环境的检修。 机房建筑结构的变化。 机房的严密性。 从机房穿过的为楼内其它楼层使用的各种管线对机房的影响。 机房与外部各种连接用管路的畅通、密封性检修。 机房周围环境的变化情况对机房的影响。 2)机房内装修部分的检修。 机房吊顶部分要打开一些活动顶板。检查顶部各种电缆、信号线、管道的连接、固定。清除吊顶上 的积尘。受损吊顶的更换、调整。 对机房墙面装饰板进行全面的检查,清洁。 机房内活动地板打开一部分进行检查。检查地板下电缆、导线、信号线各种设备使其附件的固定。 清

39、洁地板下部的积尘。 对损坏、变色地板的更换和调整。 检查机房内各种门、窗、隔断的固定,玻璃密封条的完整性。门和窗的关闭、开启的灵活性。关闭 时的密闭性。 对损坏灯具、门窗拉手、照明开关的修理、更换。 3)完成空调制冷系统中修的检查。 检查压缩机、排除异常情况。 清洗蒸发器、冷凝器、蒸发器,特别对室外机要重点清洗。 对润滑系统清洗,更换润滑油。 清洗、更换过滤网。 检查皮带松紧情况,调整到合适的程度。 检查电器线路的完好和控制开关的灵活性,接触的可靠性。 检查制冷剂是否泄漏,需要时予以补充。 检查冷凝管道有无损伤、变形。 检查上下水管道是否畅通,接口有无裂缝。 测试各个部位的工作性能参数。 对怀

40、疑部位进行认真检查,消除疑点。 4)完成机房供配电系统的中修检查。 检查市电的电压是否稳定。 配电柜各接触点是否牢固,如有松动及时紧固。 调整机房内三相电源使之均衡分配。 检查电源线套管有无破损、各类开关、控制器是否灵敏,并加以解决。 各类插座有无损坏并予以更换。 整顿机房使用中用电的不规范行为。 5)完成 UPS 电源定期检测内容。 检查并清理使用UPS 的非计算机类设备。 测量 UPS 的输入输出电压是否正常并加以解决。 对非免维护的UPS 的电池进行一次放充电。 清理蓄电池的灰尘并检查有无泄漏情况。 6)对机房接地系统进行一次全面的检查测试。 计算机直流接地电阻小于一欧姆。 计算机交流接

41、地电阻小于四欧姆。 计算机安全接地电阻小于四欧姆。 若使用组合接地系统,则计算机组合接地电阻小于一欧姆。 7)对安全消防系统和自动报警系统的设备和线路进行一次全面 的检查、测试。 设备的固定。 线路和管路的固定和连接。 探头技术性能要进行实测。 消防系统有关附件的技术性能测试和联动试验。 检查灭火气体设备间使之符合设计要求,钢瓶压力达到技术指标。非气体灭火的其它灭火设施,均 应符合技术要求。 更换手提灭火器材。 8)中修后要对机房的状况和设备技术性能作一次全面的结论。在结论中应有以下内容: 机房内环境的技术性能。 机房外部影响的程度。 机房设备主要技术性能参数及使用状况评估。 需要更新的机房设

42、备。 对机房使用状况的评估。 8.5. 定期大修 机房及其设备连续使用30000 小时左右时要对机房及其设备进 行大修。大修时除完成中修内容和排除机房内设备故障外还应增加 以下内容: 1 )机房的外部环境的影响 对影响机房的外部环境进行调查和测试,在调查的基础上制定 改造的方案。 2)机房本身建设结构的状况 对机房本身建筑的现状进行一次全面的检查评估,写出调查报 告,制定整修计划。 3)机房内部装修 要对机房内部装修情况进行一次全面的整修。在整修前要对机 房各部位,各方面进行检查,制定整修计划。机房内吊顶、地板要 全部打开进行检查、清洁;对吊顶、地板的平整度进行调整;更换 裂缝、起鼓、脱皮、变

43、色的微孔顶板和活动地板;补刷楼层顶板、 地板的防尘漆;墙面饰板严重变形或损坏的要重新更换。 4)按大修内容完成空调制冷设备的检查,制冷系统大修就是要 对机房空调设备和新风设备进行全面的测试、调整。重点是: 完成中修的内容。 清洗压缩机外壳的油垢和灰尘。 检查并校验温湿度探头和各类控制器的灵敏度、准确性,如 果有损坏或动作失调的应予更换。 监测系统中的所有阀门并试压。 检修保温管道及绝热材料,不合格的应重新作保温。 清洗室外机、散热器,并清理其周围的杂物,保证散热充分。 清除辅助设备表面的特铁锈,吹出内部的油腻。 做好大修后的试运行和测试工作。 5)完成供配电系统全面的大修检查。 检查应符合国家

44、和当地供电部门有关规定。检查后应有供电部 门的合格证方可重新使用。 6)对机房专用UPS 电源进行全面的检查测试。 在大修中要对机房专用UPS 电源作以下性能检测: 检查 UPS 电源内部的附件,各种电缆、信号线的固定。 对 UPS 电源作一次全面的清洁。 检查各接线端的可靠性,清洁各种开关、接触器的触点。检 查弹簧的强度和灵活性。 检查各种集成电路板的固定和清洁应良好。 检查蓄电池的性能 对蓄电池作放电试验。 逐个测量每个蓄电池的终了电压。 对蓄电池作24 个小时充电。 不合格的蓄电池要摘除,摘除蓄电池的个数不能多于UPS 电源对蓄电池组的最低限度。 蓄电池组不能满足要求时要全部更新。 对

45、UPS 电源性能作全面的评估。 7)对安全消防系统进行一次全面技术性能检查。 报警系统的可靠性和准确性检验。 灭火系统管路按规定作耐压试验。 灭火剂瓶(罐)做耐压试验。 灭火药剂如果过期、压力不足应更换或补充。 对照竣工图逐个检查烟感、温感探头的灵敏性。 此项工作应由消防专业人员完成并由消防主管部门现场检查 指导。 8)对接地系统进行全面测试。 如果是机房专用接地系统,在条件允许时,可抽查部分接地体 在地下的锈蚀状况,接地电阻若达不到要求时,可补做或增加 接地体。 9)机房大修后要进行全面验收。 机房大修应组织有机房专业装修资格的公司完成,大修完成后应按 机房标准和大修要求进行检查验收。 二、

46、机房维护服务方案 1、机房维护的必要性 机房内的设备对工作环境有着非同一般的要求。 1.1 、机房设备十分爱干净,对灰尘特别 “感冒”。如果设备长期处于灰尘漫舞的环境中工 作,很容易发生故障, 因为灰尘会不知不觉地渗入设备的控制框中,并直接覆盖到它的电子线路中。 时间一长,设备内部的工作电路就会散热不良,长此以往自然就容易出现故障。 1.2、设备都害怕潮湿。设备内部有电子线路,如果电子线路中的各个元器件长期在潮湿环境 中工作,其电气性能会逐步下降,而且还有可能产生漏电现象,引发火灾事故。 1.3、设备对环境温度十分敏感。高于40的环境或低于0的环境会降低设备的工作效率, 使它的潜能得不到充分发

47、挥,从而减少使用寿命。 1.4、机房的硬件设备品牌过多、产品供应商过多,厂家售后保障措施不到位等等原因,导致设 备使用一段时间后,设备故障不断、损坏率不断攀升,最终不得不对原有设备进行大面积更新,出 现重复投资、浪费严重的现象。 对于客户而言, 往往因为专注于业务或者受成本所限,缺乏专业的机房维护人员以及充足的 备件。如果说小故障尚可解决,那么,一旦机房发生突如其来的大故障,客户便会措手不及,或者 无法找到症结所在,或者没有可更换的备件。此时,损失已经造成了。 为了做好机房设备的维护工作,我公司维修中心配备相应的人力、物力(工具、通讯设备等),确 保中心机房正常运作,通过对机房环境支撑系统、监

48、控设备、计算机主机设备定期检测、维护和保 养,保障机房设备运行稳定,通过保养延长设备生命周期,降低故障率。 确保机房在突发事故导致硬件设备故障,影响机房正常运作情况下,可及时得到设备供应商或机 房服务维护公司的产品维修和技术支持,并快速解决故障。 2、维护内容 2.1 机房监控设备维护管理:供配电监测系统、空调环境检测系统、门禁设备系统、漏水检测、保安 监控设备(包含摄像头、硬盘录像机)、监控主机; 2.2 机房空调与配电设备维护管理:精密空调机组、新风设备;UPS 及电池、主配电柜、UPS 配电 柜; 2.3 机房消防设备维护管理:各种探测器、手动报警按钮和报警控制器,灭火剂的控制装置; 2

49、.4 机房供水水路、电路及照明线路的维护管理:水、电路管线及接口的检查维修。 2.5 机房基础维护管理:机柜线路的整理、标签检查更换、机房除尘清洁、地板、墙面、吊顶、门窗 及有关配套的维护管理 2.6 机房主机设备维护管理:计算机服务器(包括PC 服务器、存储服务器);网络设备(路由及交 换设备等); KVM 系统; 2.7 机房运维管理体系建设:完善机房运维规范,优化机房运维体系; 3、维护具体需求 3.1 机房监控设备: 1)每季度一次设备的除尘、清理,扫净监控设备显露的尘土,对摄像机、防护罩、门禁、监控采 集模块等部件要卸下彻底吹风除尘,之后用无水酒精棉将各个擦干净,调整摄像头清晰度,防止由 于机器运转、 静电等因素将尘土吸入监控设备机体内,确保机器正常运行。 同时检查监控 机房通风、 散热、净尘、供电等设施。室外温度应在20 60,相对湿度应在10 100;室内温度 应控制在 5 35, 相对湿度应控制在10 80, 留给机房监控设备一个良好的运行环境。 2)根据监控系统各部份设备的使用说明,每月检测其各项技术参数及监控系统传输线路质量,处理 故障隐患, 协助监控主管设定使用级别等各种数据,确保各部份设备各项功能良好,能够正常运行。 3)对容易老化的监控设备部件每月一次进行全面检查,一旦

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1