运维风险预估措施.pdf

上传人:tbuqq 文档编号:5031999 上传时间:2020-01-29 格式:PDF 页数:11 大小:113.59KB
返回 下载 相关 举报
运维风险预估措施.pdf_第1页
第1页 / 共11页
运维风险预估措施.pdf_第2页
第2页 / 共11页
运维风险预估措施.pdf_第3页
第3页 / 共11页
运维风险预估措施.pdf_第4页
第4页 / 共11页
运维风险预估措施.pdf_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《运维风险预估措施.pdf》由会员分享,可在线阅读,更多相关《运维风险预估措施.pdf(11页珍藏版)》请在三一文库上搜索。

1、. . 运维风险预估措施 部门运维部版本编号Ver_1.0 日期2014-05-20 密级公司内部使用 文档信息 文档名称服务器故障应急措施方案 日期版本号更新说明 2014-05-20 Ver_1.0 建立文档、初始化 一、 服务器风险预估 . . 1. 服务器被攻击 1.1.拒绝服务攻击 拒绝服务攻击的方式很多,主要常用的攻击手段有SYN Flood 、UPD 洪水、IP 欺骗攻击、 CC 攻击。 防范 DDOS 攻击首先要能够检测到,并且及时做出响应,才可以防范。 SYN Flood通过 TCP 三次握手的原理,服务器如果出现第三次握手包迟迟收不到,将会占用服务器 的内存资源,攻击者在较

2、短时间内伪造大量不存在的源IP 地址数据包进行攻击,将会耗尽服务器的内存 资源,最后无法提供正常服务。 根据 SYN Flood的攻击方式,可见动态的根据攻击流量进行设置TCP 第三次握手的超时时间是降 低攻击效果的主要方法。 1.2.入侵检测 遭受黑客入侵不可怕,可怕的是被入侵还不知道,这就需要部署一台入侵检测设备,可以使用开源 的 Snort进行部署,但是IDS 的误报率会很高,而使用OSSIM 的关联分析功能就可以减少很多误报。 1.3.防火墙防护 将服务器放置在防火墙的DMZ 区域,通过对防火墙进行配置可以避免外网对服务器进行端口扫描, 从而提高服务器的安全。放置在DMZ 区有另一个好

3、处就是可以保护内部网络。 2. 内部环境安全 2.1.防止 ARP 欺骗攻击 通过在交换机的接口进行MAC 绑定,实现终端设备的接入控制,这样就可以防止恶意用户的接入。 终端电脑绑定网关的MAC 地址,以防攻击者欺骗网关。对 ARP 数据包进行检测,防止 ARP 洪泛攻击。 2.2.可信任主机接入 . . 在交换机端口下,对IP 地址与 MAC 地址进行绑定,可以限制特定用户对网络进行访问,其余的用 户无法接入网络。 2.3.DHCP 欺骗攻击 在接入层网络伪造一台DHCP 服务器,将所有的网络流量指向黑客创建的伪造网关,所有到伪造网 关的流量都会被分析,并且通过伪造DNS ,把国内一些大站点

4、的域名指向钓鱼网站,或者放入最新的溢 出漏洞夹杂在页面中,造成的危害会很大。 通过在交换机上配置DHCP 可行端口进行防范DHCP 的欺骗攻击。 3. 安全配置 3.1.帐户密码安全 root进程指的是只有root用户的权限才可以启动的服务,通过root绑定 1024 以下的端口,这样 可以防止恶意用户开启低于1024 的端口进行欺诈攻击。 用户密码放置在以下路径中: /etc/passwd /etc/shadow 可以通过预定的安全策略对密码进行定期修改,并且强制设置高强度的密码,以及使用目前加密强 度最大的加密算法,防止被爆破以及APT 攻击。 3.2.远程访问安全 禁用明文密码传输的te

5、lnet远程访问协议,使用安全shell (ssh)保障数据的安全交换。 3.2.1.修改 ssh 服务 root登录权限 修改 ssh 服务配置文件, 使的 ssh 服务不允许直接使用root用户来登录, 这样减少系统被恶意登录 攻击的机会。 . . 3.2.2.修改 ssh 服务的端口号 ssh 默认会监听在22 端口,通过修改至6022 端口以避过常规的扫描。 注意:修改端口错误可能会导致你下次连不到服务器,可以先同时开着22 和 6022 两个端口,然后 再关掉 22 端口;重启sshd 不会弹掉你当前的连接,可以另外开一个客户端来测试服务; 3.2.3.阻止任何人 su 作为 roo

6、t 通过禁止普通用户切换到root ,但可以设置一组特殊用户切换,降低了服务器被提权的风险。 3.3.审计系统日志 对系统日志、关键应用日志进行定期自动异地备份,可用来做故障排错,故障提前报警,也可以防 止被黑客为了抹掉登录痕迹而删除,目前对最前沿的日志审计系统是SOC,全称为安全运维中心,可以 对各种网络设备、服务器、终端主机进行日志审计,并且做出关联分析。 3.3.1.减小 history缓存命令条数 对于 linux 系统来说, 有一条 history命令,可以记录用户所输入的命令,如果命令中涉及一些密码 或者敏感的操作,将会被黑客利用。通过设置bash 的环境变量可以设置history

7、缓存命令的数目。 3.3.2.注销时删除命令记录 注销用户的时候就自动清除$home/.bash_history, 历史命令只是对当时用户在调试服务器时会用 到,当用户退出tty 线路自动清除可以防止泄露服务器的历史配置命令,如果有需要可以异地备份。 3.3.3.对 auth.log进行定期分析 在文件系统 /var/log/auth.log的文件下,保存了登录操作系统的时间、ip 地址、用户名,对这些日 志进行定期分析,可以查出那些未授权的用户登录过。 3.4.DNS 安全 服务器系统的Dns 被篡改成用于欺诈与钓鱼的dns ,将会导致下面连接代理上网的终端被钓鱼网站 欺骗,用户信息窃取等情

8、况出现。 . . 4. 服务器环境 操作系统本身几乎每天都在更新的,如未能及时打上补丁可能会被攻击,网络如果出现linux 的 0day 漏洞,就必然会有相应的批量拿站的工具出现,所以危害很大,那么就需要进行定期更新,但是由于公 司的服务器都是在生产环境下的,升级操作系统可能会带来风险, 建议可以使用影子服务器进行测试,之后才让生产环境的服务器进行升级,这样可以降低风险。 更新操作系统的流程: 4.1.筛选需要进行更新的补丁,对严重影响服务器系统安全的补丁,以及影响服务器业务的补丁,列入更新 列表。 4.2.验证测试环境下做更新测试,测试更新成功后进行升级。 4.3.获得业务系统所有人的授权

9、4.4.申请维护时间窗口,尽量选择在网络流量低峰时期。 4.5.升级系统之前,需要对数据进行备份,并且准备回退方案。 5. 服务器负载问题 5.1.数据超过硬盘读写负载能力导致应用程序崩溃; 5.2.CPU 使用率跑满导致服务器宕机; 5.3.使用内存cache 占用过多导致宕机; 5.4.硬盘空间使用满导致宕机; 5.5.用户量过多,服务器带宽不足,导致卡顿,用户访问程序故障; 5.6.系统连接数过多造成系统拥堵网络带宽使用不上; 5.7.数据库数据读写占用过多服务器连接数,达不到预期的服务器带宽; . . 6. 服务器硬件故障 6.1.电源线损环; 6.2.服务器电源损坏; 6.3.服务器

10、非人为硬盘损坏; 6.4.服务器受黑客入侵攻击时导致硬盘损坏; 6.5.CPU 温度过高烧毁; 6.6.内存使用中损坏; 6.7.主板在电源损坏时容易烧毁; 二、 运营商风险预估 1. 机房网络故障 1.1.骨干网光纤切割; 1.2.机房网络升级; 1.3.机房网络设备调试; 1.4.机房网络设备损坏; 1.5.骨干网网络出口故障; 2. DNS 域名解析缓存 每一个域名, 在服务商那边都有一个DNS 服务器, 作用是把利于用户记忆的域名转换成计算机方便 理解的 IP 地址,在域名管理中,其中一项就记录着你的域名指向,术语叫A 记录,用于指向一个IP 地 址。 . . 但是并不是每次访问你的网

11、站,都会去你的服务商DNS 服务器查询IP 地址。通常你所在的城市ISP (网络服务提供商)都会有一个DNS 服务器, 他会在你第一次访问时缓存你的域名指向。下次你再访问 时,他会从缓存里把你曾经指向的IP 调出来。 3. 政治因素 3.1.服务器没有备案; 3.2.域名备案存在问题; 3.3.黑客入侵导致服务器违法行为; 3.4.违规代理服务器; 3.5.服务器转发违禁网站; 3.6.服务器放置的网站内容不符合当地的政府法例法规; . . 三、 故障处理 1. 划分故障等级 故障级别故障说明故障处理第一步 级 (紧急) 当系统出现下列相当严重的现象时,属一级故障: 系统整体瘫痪,全部操作失去

12、响应 发生间歇性、随机性、重复性的启动或应用 退出,无法保障公司业务的正常处理 核心业务、用户数据受到入侵,系统与应用 数据被篡改 立即汇报上级 级 (重要) 当系统出现下列比较严重的现象时,属二级故障: 关键部件(含软、硬件)停止工作,导致系 统降低运行状态,客户业务受到严重影响 重要数据、参数和配置信息损坏,无恢复, 导致客户数据及业务记录严重损失 部分页面被恶意篡改,涉及非法内容 立即汇报上级 级 (关键) 当系统出现下列现象时,属三级故障: 应用功能部分停止运作,影响业务 应用出现中型BUG ,或者是报错 网络访问速度慢,或者响应慢 部分用户反馈异常 立即汇报上级 级 (告警) 当系统

13、出现下列情况而不影响客户业务时,属四 级故障: 应用功能部分停止运作,不影响业务 应用出现小型BUG ,或者是报错 网络访问速度较慢,或者响应较慢 少数用户反馈异常 故障排错流程 . . 2. 应急处理流程 判断故障等级 级(紧急)级(重要)级(关键)级(警告) 汇报上级汇报上级汇报上级 故障处理流程记录发生时间 故障处理流程故障处理流程故障处理流程 记录发生时间记录发生时间 记录发生时间 问题处理完成 服务器故障处理完毕 服务器出现故障 . . 3. 故障处理流程 否 是 否 是 4. 故障报告邮件格式 故障处理开始 判断故障等级是否 属于级或级 联系相关部门的技术 人员处理故障 尝试访问故

14、障点,并且 验证是否解决问题 故障处理完成 汇报总部技术总监 发送邮件给相关人员(包括客服) 收到技术人员故障处理完成的通知 . . 4.1.故障报告邮件标题命名规则 文件名前缀故障级别标题内容 故障报告 级紧急 故障情况简述 级重要 级关键 级告警 例如:故障报告_级关键 _xx功能模块不可用 4.2.故障报告邮件内容 故障发现时间Xxxx 年 xx 月 xx 日xx:xx (24 小时制) 故障情况描述填写详细的描述情况 故障发现人员 是否汇报上级举例: 是, xx 部门主管: xxx 否, (填写原因)例如:联系不到 是否联系技术人员处理举例: 是, xx 部门: xxx 否, (填写原因)例如:联系不到 是否知会客服举例: 是, xx 部门: xxx 否, (填写原因)例如:联系不到

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1