1、软件工程系统巡检报告 2021年月日工程名称:巡检部门:1前言1.1巡检目的为保障技术系统的平稳运行,将定期对各子系统进展巡检,并且根据巡检的实际结果给出相应建议。本文档面向IT主管和技术维护人员,通过本文档共同完成对IT各子系统运行状况的调查与监控,使IT主管和技术维护人员充分了解网络系统运行的根本情况,并且为日常的系统网络、应用以及数据库的维护效劳提供根本的参考数据。1.2系统组成目前本工程技术系统主要由数据库系统、缓存集群系统、*应用、YY应用、ZZ应用和管理平台组成。巡检中将对各子系统分别作全面的细致检查,为日常维护提供参考数据。1.3巡检范围n *应用子系统n YY应用子系统n Z
2、Z应用子系统n 管理平台应用子系统n 缓存集群子系统n 数据库子系统n 应用日志和库表数据备份归档策略2 巡检工作汇报2.1*应用子系统*应用系统资源CPU使用率检查正常异常内存运行状况正常异常磁盘空间使用率正常异常磁盘IO使用率正常异常系统时间是否准确正常异常应用运行安康进程存活与进程数量正常异常*应用AA日志检查正常异常*应用BB日志检查正常异常*应用CC日志检查正常异常*应用程序版本检查正常异常巡检意见:2.2YY应用子系统YY 应用系统资源CPU使用率检查正常异常内存运行状况正常异常磁盘空间使用率正常异常磁盘IO使用率正常异常系统时间是否准确正常异常应用运行安康进程存活与进程数量正常异
3、常YY应用AA日志检查正常异常YY应用BB日志检查正常异常YY应用CC日志检查正常异常YY应用程序版本检查正常异常YY应用JVM内存使用检查正常异常巡检意见:2.3ZZ应用子系统ZZ 应用系统资源CPU使用率检正常异常内存运行状况正常异常磁盘空间使用率正常异常磁盘IO使用率正常异常系统时间是否准确正常异常应用运行安康进程存活与进程数量正常异常ZZ应用AA日志检查正常异常ZZ应用BB日志检查正常异常ZZ应用CC日志检查正常异常ZZ应用程序版本检查正常异常ZZ应用网络连接数正常异常巡检意见:2.4管理平台应用子系统管理平台系统资源使用CPU使用率检查正常异常内存运行状况正常异常磁盘空间使用率正常异
4、常磁盘IO使用率正常异常系统时间是否准确正常异常应用运行安康进程存活与进程数量正常异常平台程序版本检查正常异常日志文件检查正常异常访问与登录正常异常平台各项管理功能正常异常DD指标JJ指标正常异常HH指标正常异常KK指标正常异常LL指标正常异常QQ指标正常异常巡检意见:2.5缓存集群子系统缓存集群系统资源使用CPU使用率检查正常异常内存运行状况正常异常磁盘空间使用率正常异常磁盘IO使用率正常异常系统时间是否准确正常异常应用运行安康各节点内存使用量正常异常集群效劳安康状态正常异常缓存应用日志检查正常异常集群日志检查正常异常缓存效劳的网络连接正常异常巡检意见:2.6数据库子系统数据库效劳系统资源使
5、用CPU使用率检查正常异常内存运行状况正常异常磁盘空间使用率正常异常磁盘IO使用率正常异常系统时间是否准确正常异常应用运行安康查看DB效劳进程正常异常登录DB库,检查库、表的名称与数量正常异常DB 效劳的网络连接数量正常异常查看DB效劳错误日志正常异常OOOOPPPP检查正常异常EEEE检查正常异常RRRRRTTTT检查正常异常巡检意见:2.7日志和库表数据备份归档策略日志和库表数据备份归档检查配置表备份策略正常异常检查数据表备份策略正常异常*应用日志备份与归档正常异常YY应用日志备份与归档正常异常ZZ应用日志备份与归档正常异常管理平台的日志备份与归档正常异常巡检意见:3巡检参与人员联系人手机
6、Email4问题分析与运维建议4.1巡检工作中发现的问题以及对问题原因的分析序号问题处理措施或建议1234.2运维工作建议1持续提高对技术系统、网络、应用和数据库效劳的监控与报警能力,及早发现系统中存在问题,可以有效防止问题影响的扩大化,将问题解决在萌芽状态。2定期,如每周一次,检查各个应用主机节点、DB主机节点的日志归档、数据备份策略,检视这些策略是否在有效地运行,历史数据是否按预期的时间与方式被归档处理。检查重要数据的备份文件的有效性,确认这些备份数据是平安的且可在应急故障中用于恢复数据的。3定期检查或演练一下网络效劳的高可用性,确保备份措施在发生了中断故障事件时,网络效劳可以迅速且有效地切换到备机继续运行。建议将该应急迫换操作进展自动化的实现,或者维护好手动切换需要使用的流程文档、操作手册和本卷须知等。4采集和监测网络中各主机节点的网卡流量,合理设计报警阈值,用以辅助发现和定位异常的网络通信流量、信息平安威胁或是故障事件。. z.