毕业设计(论文)-服务器故障分析和维护.doc

上传人:西安人 文档编号:3946746 上传时间:2019-10-10 格式:DOC 页数:31 大小:2.10MB
返回 下载 相关 举报
毕业设计(论文)-服务器故障分析和维护.doc_第1页
第1页 / 共31页
毕业设计(论文)-服务器故障分析和维护.doc_第2页
第2页 / 共31页
毕业设计(论文)-服务器故障分析和维护.doc_第3页
第3页 / 共31页
毕业设计(论文)-服务器故障分析和维护.doc_第4页
第4页 / 共31页
毕业设计(论文)-服务器故障分析和维护.doc_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《毕业设计(论文)-服务器故障分析和维护.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)-服务器故障分析和维护.doc(31页珍藏版)》请在三一文库上搜索。

1、云南工商学院 服务器故障分析和维护毕业设计(论文)题目 姓名 学号 专业 班 级 指导教师 职 称 年 月服务器故障分析和维护摘要在这个信息化时代服务器的应用范围十分的广泛,无论是公司企业还是政府军队都会涉及使用到该设备,由此可见服务器在当代社会的重要性,正因为如此,服务器出现故障的问题也越来越频繁,所以服务器故障的排除也越发的重要。服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,其余的30%为硬件故障,对此我们解决服务器故障的过程必须深思熟虑。导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的治理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造

2、成的软件故障。硬件故障则有开机无显示、上电自检阶段故障、安装阶段故障和现象、操作系统加载失败、系统运行阶段故障等,由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。一般来说,故障排除不可能一次就能准确地判断出问题的所在,线索一般都会显得扑朔迷离。这样就要求相关人员要有信心及耐心。出现错误一般的流程是通过系统日志上的信息来解决,如果没有解决问题再找出其它因素,然后再看日志信息。总之,服务器出错后,必须一步一步解决,没有捷径可言。关键字:服务器故障,服务器维护,服务器,服务器故障分析Server failure analysis and maintenanceAbstractIn this

3、information age server wide range of applications, whether corporate or government forces will involve the use of the device, shows the importance of the server in contemporary society, and as such, server failure problems increasingly the more frequent, so the server troubleshooting is also increas

4、ingly important.Server software failure is failure in the server holds some of the highest proportion, about 70% of the remaining 30% of hardware failure, which we solve the server process must be considered failure.Causes the server software failure occurs for many reasons, the most common is the s

5、erver BIOS version is too low, the server management software or server driver have BUG, application conflicts and man-made software failure. Hardware failure, there are boot no display, power-on self-test phase failure, phase failure and the phenomenon of installation, the operating system fails to

6、 load, system failures and other operational phase, because the server is more complex composition, so the time must be carefully checked carefully. In general, the troubleshooting was not possible to be able to accurately determine where the problem lies, leads usually artsy. This requires stakehol

7、ders to have confidence and patience. The process is generally an error log on the system information to solve, if not solve the problem and then find out other factors, and then look at the log information. In short, the server error, must be resolved step by step, there is no shortcut.Keywords: se

8、rver failure, server maintenance, server, server failure analysis目 录第一章:绪论11.1 引言11.2 服务器介绍11.2.1 服务器的定义11.2.2 服务器解析11.2.3 服务器划分21.3 服务器的发展态势31.4 服务器在企业中的应用31.4.1 服务器的发展前景31.4.2 服务器的应用4第二章 服务器常用品牌72.1 各大服务器厂商介绍72.2常用服务器品牌性能参数82.2.1 HP最常用服务器82.2.2 DELL最常用服务器82.2.3 IBM最常用服务器92.2.4 联想最常用服务器92.2.5 浪潮最常用

9、服务器102.2.6 华硕最常用服务器10第三章 服务器故障与维护123.1 服务器故障定义123.2 服务器硬件故障123.2.1 服务器故障排错的基本原则123.2.2 服务器故障排除前需要收集的信息123.2.2 服务器硬件故障分析与解决133.2.3服务器软件故障分析与解决15第四章 服务器常见故障总汇184.1 服务器常见故障184.2 服务器常见蓝屏现象214.3 服务器故障问题附表22参考文献26致谢27III第一章:绪论1.1 引言随着信息技术的飞速发展,我国的信息化也发生了翻天覆地的变化,无论是公司企业还是政府军队都会使用到服务器,由此可见服务器在当代社会的重要性。正因为如此

10、,服务器出现故障的问题也越来越频繁,所以服务器故障的排除也越发的重要。1.2 服务器介绍服务器是网络环境中的高性能计算机,它侦听网络上的其他计算机(客户机)提交的服务请求,并提供相应的服务。为此,服务器必须具有承担服务并且保障服务的能力1.2.1 服务器的定义服务器指一个管理资源并为用户提供服务的计算机软件,通常分为文件服务器、数据库服务器和应用程序服务器。运行以上软件的计算机或计算机系统也被称为服务器。相对于普通PC来说,服务器在稳定性、安全性、性能等方面都要求更高,因此CPU、芯片组、内存、磁盘系统、网络等硬件和普通PC有所不同。图1-1 服务器1.2.2 服务器解析服务器作为网络的节点,

11、存储、处理网络上80%的数据、信息,因此也被称为网络的灵魂。做一个形象的比喻:服务器就像是邮局的交换机,而微机、笔记本、PDA、手机等固定或移动的网络终端,就如散落在家庭、各种办公场所、公共场所等处的电话机。我们与外界日常的生活、工作中的电话交流、沟通,必须经过交换机,才能到达目标电话;同样如此,网络终端设备如家庭、企业中的微机上网,获取资讯,与外界沟通、娱乐等,也必须经过服务器,因此也可以说是服务器在“组织”和“领导”这些设备。 它是网络上一种为客户端计算机提供各种服务的高可用性计算机,它在网络操作系统的控制下,将与其相连的硬盘、磁带、打印机、Modem及各种专用通讯设备提供给网络上的客户站

12、点共享,也能为网络用户提供集中计算、信息发表及数据管理等服务。它的高性能主要体现在高速度的运算能力、长时间的可靠运行、强大的外部数据吞吐能力等方面。 服务器服务器的构成与微机基本相似,有处理器、硬盘、内存、系统总线等,它们是针对具体的网络应用特别制定的,因而服务器与微机在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面存在差异很大。尤其是随着信息技术的进步,网络的作用越来越明显,对自己信息系统的数据处理能力、安全性等的要求也越来越高,如果您在进行电子商务的过程中被黑客窃走密码、损失关键商业数据;如果您在自动取款机上不能正常的存取,您应该考虑在这些设备系统的幕后指挥者服务器,而不是埋怨

13、工作人员的素质和其他客观条件的限制。1.2.3 服务器划分1、按网络规模划分按网络规模划分,服务器分为:工作组级服务器、部门级服务器、企业级服务器。 工作组级服务器用于联网计算机在几十台左右或者对处理速度和系统可靠性要求不高的小型网络,其硬件配置相对比较低,可靠性不是很高。部门级服务器用于联网计算机在百台左右、对处理速度和系统可靠性中等的中型网络,其硬件配置相对较高,其可靠性居于中等水平。企业级服务器用于联网计算机在数百台以上、对处理速度和数据安全要求最高的大型网络,硬件配置最高,系统可靠性要求最高。需要注意的是,这三种服务器之间的界限并不是绝对的,而是比较模糊的,比如工作组级服务器和部门级服

14、务器的区别就不是太明显,有的干脆统称为“工作组/部门级”服务器。2、按架构划分按照服务器的结构,可以分为CISC架构的服务器和RISC架构的服务器。CISC架构主要指的是采用英特尔架构技术的服务器,即我们常说的“PC服务器”;RISC架构的服务器指采用非英特尔架构技术的服务器,如采用Power PC、Alpha、PA-RISC、Sparc等RISC CPU的服务器。RISC架构服务器的性能和价格比CISC架构的服务器高得多。近几年来,随着PC技术的迅速发展,IA架构服务器与RISC架构的服务器之间的技术差距已经大大缩小,用户基本上倾向于选择IA架构服务器,但是RISC架构服务器在大型、关键的应

15、用领域中仍然居于非常重要的地位。3、按用途划分按照使用的用途,服务器又可以分为通用型服务器和专用型(或称“功能型”)服务器,如实达的沧海系列功能服务器。通用型服务器是没有为某种特殊服务专门设计的可以提供各种服务功能的服务器,当前大多数服务器是通用型服务器。专用型(或称“功能型”)服务器是专门为某一种或某几种功能专门设计的服务器,在某些方面具有与通用型服务器有所不同。如光盘镜像服务器是用来存放光盘镜像的,那么需要配备大容量、高速的硬盘以及光盘镜像软件。4、按外观划分按照服务器的外观,可以分为台式服务器和机架式服务器。台式服务器有的采用大小与立式PC台式机大致相当的机箱,有的采用大容量的机箱,像一

16、个硕大的柜子一样, 机架式服务器的外形看起来不像计算机,而是像交换机,有1U(1U=1.75英寸)、2U、4U等规格,为1U机架式服务器。机架式服务器安装在标准的19英寸机柜里面。说了这么多,那么究竟应该买一台什么样的服务器呢?对这个问题不能一概而论,而是应该因地制宜。如果您的网络是由几十台电脑构成的小型网络,用户不会在短时间内大量访问服务器,选购12万元或23万元的PC服务器就可以胜任了。如果您的网络由几百台甚至上千台电脑构成,用户需要经常访问服务器,就需要购买价格在35万元甚至68万元左右的部门级甚至更昂贵的企业级服务器。1.3 服务器的发展态势服务器作为各行各业必备用品,其发展趋势非常的

17、广阔,所以对服务器的故障解决人员要求也越来越高,以下为服务器的主要趋势:1. 集多种服务器于一身服务器聚集;2. PC服务器大行其道与PC机按比例销售与增长,比例一般是1::2030,销售额一般是1:10;3. 超级服务器面临空前的机遇,信息化、网络、电子商务、内容服务、服务器聚集等各种选择;4. 中当服务器:份额缩小,但其不可取代;5. 服务器最终将走入家庭。图1-2 服务器发展趋势1.4 服务器在企业中的应用1.4.1 服务器的发展前景在中国市场,服务器每年增长大约30-40%。发展势头十分迅猛。正因为服务器市场前景广阔,各家厂商的投入都非常积极,服务器的产品更新和跟进也非常快。现在网游、

18、.com发展非常迅猛,增长速度很快,服务器在这一市场中有很好的应用前景。目前,中国服务器还不是很成熟,与发达国家服务器的应用水平还有一定差距。之所以出现这种情况,是因为中国用户可能更注意购买成本,在整体的应用成本上可能不是很在意,这也就是服务器在中国的使用率没国外高的原因,在未来,服务器将会帮助用户去提高购买成本和管理特性上的这种认知程度,提升中国用户的服务器应用水平。在中国的高性能计算领域、数据中心、电子政务、金融信息化、石油系统等项目中,服务器得到了越来越深入的应用。1.4.2 服务器的应用随着Internet的高速发展,作为我国国民经济重要组成部分的各大中小企业为了在竞争中占据优势,已经

19、纷纷将信息化作为企业建设的重点。以服务器为核心构建自己的信息系统,搭建商业战略平台,提高工作效率,增强信息流通,已经成为社会的共识。以下为IBM服务器在中小型企业中的使用实例:各大型企业大多有自己的专用大型机房不同,中小企业往往并没有这么奢侈的IT平台,但麻雀虽小,五脏俱全,对于一个完整的IT平台,该有的设备还都是要有的。不过,由于没有专门的数据中心,或者说机房的规模很小,所以在节能减排方面,中小企业所要关注的点更多的集中在了设备的个体上,这其中又以服务器的能耗居首。因此,中小企业从成本与节能角度出发,应该首选高性能、低能耗的服务器,并且不要太在意采购成本,因为一台服务器不可能使用一两年就换掉

20、,如果以平均四年使用期限计算,在这四年里所要负担的后期使用、运维成本也同样巨大,但这也是很多中小企业所忽略的。下面我们就来着重谈谈服务器的选型问题,由于中小企业自身的应用强度特点,我们把目光主要投向主流的双路机架服务器,因为它在这一领域提供了最好的性价比。一、高性能也是一种节能要素 在企业应用,更高的性能所带来的经营效益已经被广大IT管理者所认同,然而高性能也能带来更好的节能效果,可能并不被广为人知。这是因为,当服务器可以更快的处理完所要执行的任务,它就实际上就节省了运行时间,而在最新一代的至强5500服务器上,CPU可以根据负载情况分15级动态调整电源功耗,所以越快的度过高负载状态,也就意味

21、着越快的进入低功耗状态,所以在选购过程中,的确有必要关注那些性能更好的服务器。这方面,IBM的 System x3650M2就是一款值得关注的产品,它在基于SAP-SD的ERP性能测试中,保持着双路系统的冠军头衔,在著名的基于复杂数据库的在线交易处理(OLTP)性能基准测试TPC-E全球前十的榜单中,3650M2也是仅有两个进入前10名的双路服务器之一,我们有理由相信,这样高的性能在实际应用中,也会让服务器在更多的时间处于较低功耗的状态,对于节省电力的帮助不言而喻。 另一方面,在虚拟化大行其道的今天,更高性能的服务器,也意味着可以承载更多的虚拟机,整合更多的老旧服务器,仍然以IBM的 Syst

22、em x3650M2为例,在纯计算性能方面它可以替代12台双路单核的老旧服务器,也就是说以一台高性能的3650M2服务器可以节省掉12台老旧服务器的电费,如果做虚拟化的话,根据VMmark的评测结果,3650M2可以稳定支持多达102个虚拟机,这对于简化小规模应用服务器来说是非常有意义的,而如果在企业内部部署虚拟桌面的话(可节省大量的全功能PC的功耗),其所支撑的用户数量对于中小企业来说非常可观。所以,采购一台高性能的服务器,将从根本上优化IT的能耗结构。就像我们选保镖,一个李连杰能顶得上10个普通人,也节省了10个人的碳排放。 二、低功耗重要但必须软硬兼施 低功耗的服务器对于降低成本,节能减

23、排肯定是非常重要的,但很多用户在选购时往往忽略了一点,那就是低功耗不能仅看指标或是单纯的功耗评测,还要看设备的功耗控制能力与功耗/性能的比值,以及有没有影响到服务器的根本可靠性,否则可能适得其反。 还是以 IBM 的Systemx3650M2为例,它采用的至强5500处理器并不是IBM所独有的,但CPU本身是服务器中最为耗电的部分,所以如何管理好CPU的能耗就是重中之重,而且在控制能耗的同时又不能影响到机器本身的正常运行。这就需要厂商的自己发挥了,并不是每个厂商都能发挥出硬件本身的功能,这需要强大的软件方面的支持。IBM根据公共的硬件平台接口开发出了自己的管理软件集成在了独家的ToolsCen

24、ter套件里,免费供用户使用,它允许用户定制服务器的配置与功耗管理,与此同时还在BIOS层面进行了优化,实现了对CPU更为精细的能耗控制。而且在内部的散热设计方面,IBM引入了高效率的双段式对转风扇,它比传统的风扇设计更为节能,并互抵消了旋转所产生的单向振动,从而减少了服务器机机身的共振,再配合IBM独有的高度计设计,可以保证在海拔高的地区,仍能保证充足的空气流通量,因此,在节省能耗的同时也为提高系统的可靠性提供了更好的保障。 这一切有针对性的设计和努力的结果就是,在权威的SPECpower能效测试中,3650M2获得了冠军,而3650M2的电源功率为675W,并不算小,所以我们能看出其在能效

25、方面做得比较出色,而这是与IBM独到的硬件和软件设计密不可分的。 总之,无论是大型企业还是中小企业的IT节能减排方面,所关注的点相对集中,但也需要更为细致的比较和分析,而当企业的IT设备(主要是服务器)逐渐增多时,也将有必要引入更高级的管理工具,比如IBM的 SystemsDirector来实现更为高级和全局的功耗管理,因为当IT架构成长到某一水平后,管理在节能与控制运维成本方面的地位就将迅速显现,而这也是中小企业在未来发展中所不可忽视的地方。三、采购低能耗高效率的IT设备 在我们确定好IT架构之后,就要采用那些具备更高级能源管理与高性能的IT设备来部署到我们的IT架构中。在当前,随着新一代处

26、理器的面世,服务器在能耗方面的控制以及性能水平也进入到了一个新的时代。从某种意义上说,更快的处理性能就意味着处理时间的减少,也就可以让服务器更快的进入无任务的低功耗状态,而且也意味着在虚拟化状态下可负担的虚拟机数量更多,所以高性能对于经营生产有帮助,对于节能亦有帮助。不过,对于大企业的数据中心来讲,如果服务器数量众多,则有必要先从服务器的类型上入手,比如刀片式服务器就更适合于大规模的数据中心采用,因为它的计算密度更高,比同等计算能力的机架式机群更为省电。以IBM的BladeCenterHS22为例,较同级别机架式服务器其最多可节省近30%的电力,而另一款半深设计的iDataPlexdx360M

27、2也值得关注,这种半深设计的机架服务器以另一种方式提高了机架的计算密度,节省了空间,也就节省了能耗面积(制冷相关)。而且,这两款产品都采用了最新的至强5500处理器,在CPU性能达到至强5400两倍的基础上还具备了15级的能耗调节功能,能最大限度的让能耗曲线与负载曲线相吻合,并且虚拟化性能也有极大的加强,可谓是大企业机房的理想运算平台。 四、加强设备管理并优化机房设计 当我们把设备部署到机房时,就要关注对设备的管理,以及整个机房的优化设计。因为IT设备不是孤立的,而是在一个大的统一环境下运行,从这个角度上讲,先进的设备管理与机房设计对于大企业的节能减排是最为关键的,否则对于拥有成千上万台服务器

28、的数据中心来说,个体设备在能耗方面的优点并不能充分的发挥出来。这方面需要从软件和硬件两方面来实现。在软件方面,我们需要一个强大的管理工具对一个机房内的IT设备进行管理,而且要提供更为强大的管理功能,比如从全局上对机房的功耗封顶控制,确保整体的功耗水平,并能对服务器进行策略化的能源管理,如自动的资源调度、虚拟机管理、单机的功耗管理等等,在这方面IBM的 SystemsDirector可以说是其中的佼佼者,它不仅可以管理IBM服务器,还可以管理IBM存储设备,并提供了强大的能耗管理的模式与选项,可精细化到机房单个服务器的能耗控制。而在机房设计与优化方面,IBM也提供了强大的设计与服务能力,可扩展的

29、模块化机房(SMDC)理念,配合先进的制冷(高效的水冷方案)与风道优化(从设备到机房机架整体的统一前入风后出风设计)技术,将最大化的降低机房整体的能耗水平。第二章 服务器常用品牌2.1 各大服务器厂商介绍国际:HP:惠普是美国的资讯科技公司,成立于1939年,主要专注生产于打印机、数码影像、软件、计算机与资讯服务等业务。2002年收购了美国著名的电脑公司康柏电脑。中国惠普有限公司总部位于北京,在上海、重庆、广州、沈阳、南京、武汉、西安、成都和深圳设有分公司。2011年5月29日,因惠普部分笔记本电脑电池持续高烧或导致起火,惠普(美国)总公司宣布将在全球再次扩大召回16.26万块笔记本锂电池。据

30、2011年6月消息,惠普公司宣布了公司管理层的重大调整方案,与此同时,公司还决定对中国和印度市场的重点重新定位。DELL:戴尔致力于倾听客户需求,提供客户所信赖和注重的创新技术与服务。受益于独特的直接经营模式,戴尔作为全球领先的系统与服务公司,2010年在财富500强中名列第131位。如需了解更多有关戴尔公司及其产品的信息,请浏览戴尔公司网页或致电。同时欢迎访问戴尔中文博客网站、戴尔直通车与戴尔公司互动和交流。 IBM:以世界一流的最新技术开发新产品,并以最快的生产速度进入市场,是IBM的产品 发展战略。IBM拥有先进的全系列产品,在复杂的网络管理、系统管理、密集型事物处 理、庞大数据库、强大

31、的可伸缩服务器、系统集成等方面,IBM具有强大的优势。国内:联想:是一家极富创新性的国际化的科技公司,由联想及原IBM个人电脑事业部所组成。 作为全球个人电脑市场的领导企业,联想从事开发、制造并销售最可靠的、安全易用的技术产品及优质专业的服务,帮助全球客户和合作伙伴取得成功。联想公司主要生产台式电脑、服务器、笔记本电脑、打印机、掌上电脑、主机板、手机等商品。1996年开始,联想电脑销量位居中国国内市场首位,近几年更是发展迅速,一越占据世界电脑销售量第二的宝座。2011年1月,联想与NEC合作欲改变笔记本电脑行业格局。浪潮:特殊客户的特殊需求,采取细分市场的策略,使得各种功能化服务器、专业化服务

32、器、定制化解决方案应运而生,这也是服务器厂商适应运营商转型的重要体现。华硕:从一个专业的自有品牌,到行销全球的国际3C品牌,华硕自始至终都坚持不可妥协的品质与创新。在中文命名以华人之硕为期许;服务器部门成立迄今已经十余年,从过去替国际大厂代工逐渐转化到目前的自由品牌市场,也一直坚持自我研发能力的建立与积累。2.2常用服务器品牌性能参数2.2.1 HP最常用服务器图2-1 HP ProLiant DL388 G7(616659-AA1)产品类别:机架式CPU型号:Xeon E5620 2.4GHz标配CPU数量:1颗内存容量:2GB DDR3标配硬盘容量:标配不提供网络控制器:2个NC382i双

33、端口千兆网卡 电源类型:热插拔电源 RAID模式:1个智能阵列 P410i/零缓存 扩展槽:最多6个 最大CPU数量:2颗 最大内存容量:192GB 内存插槽数量:182.2.2 DELL最常用服务器图2-2 戴尔PowerEdge R710(Xeon E5620*2/12GB/4*146GB)产品类别:机架式CPU型号:Xeon E5620 2.4GHz标配CPU数量:2颗内存容量:12GB DDR3标配硬盘容量:584GB内部硬盘架数:最大支持6块3.5英寸SAS网络控制器:四千兆网卡电源类型:冗余电源产品结构:2U散热系统:可选冗余冷却RAID模式:PERC6i扩展槽:2PCI-E x8

34、 2PCI-E x42.2.3 IBM最常用服务器图2-3 IBM System x3650 M3(7945I01)产品类别:机架式CPU型号:Xeon E5506 2.13GHz标配CPU数量:1颗内存容量:4GB DDR3标配硬盘容量:146GB 内部硬盘架数:最大支持16块2.5英寸热插拔网络控制器:集成双端口千兆网卡 电源类型:热插拔电源 产品结构:2U RAID模式:RAID 0,1 扩展槽:4PCI-E(二代插槽) 最大CPU数量:2颗2.2.4 联想最常用服务器图2-4 联想T100 G11 S620 2G/500S产品类别:塔式 CPU型号:Pentium G620 2.6GH

35、z标配CPU数量:1颗 内存容量:2GB DDR3标配硬盘容量:500GB 网络控制器:集成千兆网卡 电源类型:85 PLUS单电源 产品结构:4U RAID模式:RAID 0,1 扩展槽:1PCI-E 2.0 x16光驱:DVD(可选DVD-RW) 最大内存容量:32GB2.2.5 浪潮最常用服务器图2-5 浪潮英信NF8560P(Xeon E7-4807*4/32GB/3*300GB/8*HSB)产品类别:机架式产品类型:企业级 CPU型号:Xeon E7-4807 1.86GHz标配CPU数量:4颗 内存容量:32GB ECC DDR3标配硬盘容量:900GB 内部硬盘架数:最大支持10

36、块3.5英寸SAS热插网络控制器:双千兆网卡 电源类型:1+1冗余电源 产品结构:4U RAID模式:RAID 5 扩展槽:2PCI-E 2.0 x16(x4速率)2.2.6 华硕最常用服务器图2-6 华硕TS mini产品类别:塔式 CPU型号:Atom N280 1.66GHz标配CPU数量:1颗内存容量:2GB DDR2标配硬盘容量:1TB 内部硬盘架数:2个3.5英寸寸SATA网络控制器:1000M自适应快速以太网 RJ45电源类型:单电源 最大CPU数量:1颗 最大内存容量:2GB 内存插槽数量:1第三章 服务器故障与维护3.1 服务器故障定义顾名思义,指服务器出现在工作过程中,因某

37、种原因“丧失规定功能”或危害安全的现象。3.2 服务器硬件故障3.2.1 服务器故障排错的基本原则1、尽量恢复系统缺省配置a:硬件配置:去除第三方厂商备件和非标配备件b:资源配置:清除CMOS,恢复资源初始配置c:BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序d:TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗2、从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止c:软件上从基本系统到现实系统:指从基本操作系统开始逐

38、步到现实系统为止3、交换对比a:在最大可能相同的条件下,交换操作简单效果明显的部件b:交换NOS载体,既交换软件环境c:交换硬件,既交换硬件环境d:交换整机,既交换整体环境3.2.2 服务器故障排除前需要收集的信息服务器信息:1、机器型号2、机器序列号(S/N:如:NC00075534)3、Bios 版本4、是否增加其它设备,如网卡,SCSI 卡,内存,CPU5、硬盘如何配置,是否做阵列, 阵列级别6、安装什么操作系统及版本(Winnt 4, Netware, Sco, others)故障信息:1、在POST时,屏幕显示的异常信息2、服务器本身指示灯的状态3、报警声和BEEP CODES4、N

39、OS的事件记录文件5、Events Log 文件确定故障类型和故障现象:1、开机无显示2、上电自检阶段故障3、安装阶段故障和现象4、操作系统加载失败5、系统运行阶段故障3.2.2 服务器硬件故障分析与解决硬件故障是指服务器硬件出现异常而导致的各类错误。由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。实例:故障现象:服务器不能正常加电开机。按下电源开关后瞬间电源正常,工作风扇也可以正常转动,前面板的液晶屏有正常显示,电源状态灯正常,但是经过几分钟后机器会自动掉电,重复按动电源开关故障现象基本没有变化,假如持续按住电源开关不放机器可以正常加电,一旦放开电源开关一段时间后机器仍然会自动掉电掉

40、电。解决方法:出现此问题后首先需要将服务器的所有电源模块取下检查电源笼与电源模块的接口。图3-1检查的目的是检发现源笼与电源模块的接口是否有松动的现象,通常这类问题都是由于电源控制电缆(见图二)固定在电源笼上的接口松动导致的。其次还要确认该接口是否可以通过重新安装加以固定,若固定卡子已经损坏就只有先更换电源控制电缆。假如发现其它线缆接口损坏也只有更换相应备件。图3-2有一台万全4500,配有256M内存,使用一个PIII XEON 500带2M高速缓存的处理器。开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁(指示灯三灯闪烁是服务器的另一种报警方式,我

41、会在文后说明)。这种错误一般是处理器电压调节模块(VRM)出错或CPU出错或CPU与CPU板块接触不良,但也可能是CPU板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。因为CPU板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压错的情况也有5%左右。我们立刻把CPU调换在另一CPU插槽中,开机后依然是刚才的那种故障。所以在初步判断中,可以排除是CPU板块坏。这时,取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。相对处理器坏的情况来说处理器电压模块(VRM)出现故障的情况比较大。于是立即

42、在另一台万全4500中取下一个处理器电压模块,安装在此服务器中。开机后,服务器依然没有任何显示,系统日志上依然提示CPU电压为0伏的信息,系统指示灯三灯依然不停在闪烁。这时的情况就比较明显了。于是立即从另一台万全 4500中取下一个CPU安装后,开机正常。总结:在服务器的维修中,线索都会显得扑朔迷离,一般来说不可能一次就可以准确地判断出问题的所在。这样就要求相关人员要有信心及耐心。出现错误一般的流程是通过系统日志上的信息来解决,如果没有解决问题再找出其它因素,然后再看日志信息。总之,服务器出错后,必须一步一步解决,没有捷径可言。又如:有一台万全4200开机不显示,发现开机时系统日志没有任何信息

43、,且系统指示灯不亮。初步判断是电源方面出现了错误。经过仔细检查,发现服务器的电源是正常的,因此最大的可能就是服务器的电源管理板出现故障。更换电源管理板后,开机显示正常。但这时,新的问题来了:自检时,用CTRL+M不能检测到硬盘。硬盘在别的服务器上是正常的,因此立即清除此服务器的CMOS,但依然不正常。立刻上网找到此服务器的最新BIOS,升级BIOS后也不能解决问题。又检查硬盘笼子和服务器里的数据线及电源线后依然出错。这时,一般情况会怀疑是服务器的I/O板(输入输出板块)有问题。但就在这个时候,我发现在I/O板上有一个非联想的旧式网卡,立即去除此网卡后服务器就一切正常。硬件故障并不单单指硬件有问

44、题,它也指硬件之间不兼容。因为服务器的正常运作需要各部件之间的大力协调。建议大家在采购各元件时,都采用同一品牌原装的,并且要采用能发挥服务器性能的元件(上例中的旧式网卡即使正常也会严重影响服务器性能),这样才不会发生莫明其妙的故障。还有一种情况:用户需要把他的万全3200升级到双网卡,我建议他购买原装网卡,但当他看到万全 4500的网卡是采用的INTEL 82559芯片后,断然决定不使用原装网卡而采用另一品牌也采用INTEL 82559的网卡。过了几天,他打电话给我说,他的新网卡不能使用网络冗余及数据校验,并怀疑服务器有问题。维修工程师带了一个INTEL 82559网卡到用户那里,仔细检查了服

45、务器的环境完全正常后,把INTEL 82559网卡安装到机器上后一切正常。这个例子更加说明了,要发挥服务器的最大性能及功能,必须使用原品牌原装的配件。非原品牌非原装的配件,不能支持服务器的某些功能,严重的会影响到服务器的正常使用。要避免硬件故障发生频率,服务器管理人员必须注意服务器的使用环境完全正常。比较重要的服务器必须在恒温、恒湿的环境;电压也要符合,不仅要采用UPS,还必须接地线,必须是左零线、右火线,零地电压在13伏。在开、关服务器上必须符合正常的流程。工作人员必须严格执行操作流程。3.2.3服务器软件故障分析与解决服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多,最常见的是服务器 BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。实例:系统死机、莫名其妙的重启、蓝屏、中毒、反应迟钝等等迹象图3-3 蓝屏解决方案:服务器同普通PC一样,同样会中毒、同样会因为垃圾信息过多而反应缓慢、同样会因为某些系统漏洞导致死机、蓝屏。多数情况下我们只需要重装一下系统就可以了,但是在日常的运维过程中,我们要时

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1