机房应急预案范文五篇

时间:2022-12-02 思想学习 点击:

机房:旧时手工、丝棉织业的工作场所和生产单位的通称;现在指电脑学习室;在IT业,机房普遍指的是电信、网通、移动、双线、电力以及政府或者企业等,存放服务器的,为用户以及员工提供IT服务的地方, 以下是为大家整理的关于机房应急预案5篇 , 供大家参考选择。

机房应急预案5篇

第一篇: 机房应急预案

机房应急预案

随着我公司信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是信息部门目前面临的一项重要任务。 

为应对机房可能发生的突发事件,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。

1.1 机房突发事件分类 

  1.自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。   2.事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。 

3.人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络与信息系统的损坏。  

1.2 应急处理人员组织机构 员组织机构 

 

1.3 应急机构人员岗位职责

1、应急总指挥职责 

(1)保证在任何时间,及时协调应急行动所有涉及的岗位人员; (2)提供必须的紧急响应设备; (3)在紧急情况下全面负责紧急行动; 

(4)在必要时向外界求救,例如:119、110、120等。 2、应急副总指挥职责 

(1)在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责; (2)根据获得的应急信息下达命令。 3、各相关设备负责人职责 

(1)负责尽快收集信息向应急总指挥汇报事故情况; (2)负责现场临时设备抢救和对事态的控制; (3)听从上级指挥人员的指挥。  

1.4 信息与网络安全突发事件处理原则 

1.预防为主。立足安全防护,加强预警,重点保护基础信息网络和关系信息安全、稳定的重要信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施充分发挥各方面的作用,共同构筑信息与网络安全保障体系。 

2.快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判,果断决策,迅速处置,最大程度地减少危害和影响。 

3.分级负责。按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制。根据各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。 

4.以人为本。把保障人员以及公共利益的安全作为首要任务。 

5.常备不懈。加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预案切实有效,实现网络与信息安全突发公共事件应急处置的科学化、程序化与规范化。

1.5 机房应急开关机具体措施 

机房各设备关闭顺序如下:

1.6 服务器及存储设备故障处理

1.6.1 排错流程

故障发生

1.6.2应急处置具体措施 

服务器设备损坏应急处置措施 

A、关键应用系统所在服务器设备损坏后,应立即查明原因,使用备份服务器替换损坏设备,并立即恢复应用系统正常使用; B、立即与设备提供商联系,请求派维修人员前来维修。 服务器软件损坏紧急处置措施 

A、迅速查找原因,尝试重启系统。使用备份进行恢复。必要时联系开发商; 

B、当发现服务器感染有病毒后,应立即将该机从网络上隔离出来。并启用杀病毒软件对该机进行杀毒处理,同时使用病毒检测软件对其他机器进行病毒扫描和清除工作。经技术人员确认确实无法查杀该病毒后,应作好相关记录,并迅速联系有关产品商研究解决; 

C、当因空调,电力等问题需要关闭所有服务器时,应遵循如下步骤: 先关闭所有应用服务器和数据库服务器,再关闭存储设备。启动所有服务器时,应先打开存储设备,再打开数据库服务器,最后打开应用服务器。

1.6.3 服务器突发情况记录

1.7 网络设备故障处理 

1.7.1 网络设备排错流程  

网络设备的排错流程 

下面流程图是网络维护人员所应采取的排错模型,当发生网络故障时应按照此流程快速进行定位、排除故障。

 

1.7.2 网络系统故障突发事件分级  

故障等级 故  障  现  象 1级  网络完全拥塞或设备宕机 网络或设备处理能力严重受影响,对最终客户的业务运作有严重影响 

网络或设备故障对重要的客户(公司经理级或重要的部门)造成严重影响 

2级  网络或设备的性能严重下降,对最终客户的业务运作产生重要影响 部分区域网络故障 

一般网络节点发生故障 

大部分客户的网络通讯质量下降 

3级  网络或设备性能受损,但最终客户大部分业务仍可正常工作 报警出错和操作命令反常

 4级  其它一般的故障,不影响系统的整体运行,不影响大部分客户的使用

1.7.3 应急措施 

黑客攻击时的紧急处置措施 

A、当发现网页内容被篡改、Internet接入路由器有未知用户登录或通过其他方式发现有黑客正在进行攻击时,应立即向信息部相关人员通报情况; 

B、在信息部人员授权下,立即备份当时的log日志并采用端口限制方式阻断外部的入侵,观察被攻击的服务器等设备状态,同时向信息部领导汇报情况; 

C、协调相关应用部门,与信息部有关技术人员一同负责被破坏系统的恢复与重建工作; 

D、协助信息部人员协同有关部门共同追查非法信息来源; E、情况严重的,根据突发事件级别应及时向有关上级部门汇报。 病毒安全紧急处置措施 

A、当发现计算机感染有病毒后,应立即将该机从网络上隔离出来;或从网络设备状态发现病毒爆发应采取show mac-address sh arp定位或IP查询将病毒机器所在的网络设备端口shutdown; 

B、通知维护人员对该设备的硬盘进行数据备份; 

C、启用杀病毒软件对该机进行杀毒处理,同时进行病毒检测软件对其他机器进行病毒扫描和清除工作; 

D、如发现杀病毒软件无法清除该病毒,应立即通知用户并向及信息部负责人报告,经信息部技术人员确认无法查杀该病毒并同意格式化硬盘后,作好相关记录,并格式化硬盘; 

E、机器恢复后重新开启网络设备的相应端口; 

F、认为情况极为严重,根据突发事件级别应及时向有关上级部门汇报。

 广域网线路中断紧急处置措施 

A、链路出现问题后,网络维护人员应立即信息部负责人报告,沟通地方节点技术人员共同迅速判断故障,查明故障原因; 

B、如属我方管辖范围,由双方技术人员立即配合予以恢复。如遇无法恢复情况,立即进行备件更换或向有关厂商请求支援; 

C、如属运营商管辖范围,立即与运营商维护部门申报故障,请求修复; D、根据突发事件级别应及时向有关上级部门汇报。 局域网中断紧急处置措施 

A、局域网中断后,网络维护人员应立即判断故障节点,查明故障原因,并向信息部领导汇报; 

B、如属线路故障,更换新线路或重新安装线路;或从最近飞线至故障设备; C、如属路由器、交换机等网络设备(光模块)故障,应立即查找是否有相关备件可以替换,或与设备提供商联系更换设备,并调试畅通; 

D、如属路由器、交换机配置文件破坏,应迅速按照备份配置文件重新配置,并调试畅通;如遇无法解决的技术问题,立即向有关厂商请求支援; 

E、情况严重的,根据突发事件级别应及时向有关上级部门汇报。

1.8 空调设备故障处理 

若空调损坏,应第一时间通知厂家上门进行维修,并及时报告信息部相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。

1.9 消防设备故障处理 

一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全; 

人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出; 

人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。 

1.10 电源设备故障处理 

 

热力机房目前使用UPS系统,在紧急情况发生时,应按如下步骤进行关机: (1)确认所有负载均已安全关机。 (2)关闭UPS负载电源。 

(3)将UPS的系统启用开关切换到off 的状态。 (4)将DC电池连接断路器切换到off的位置。 (5)将所有电池拉出到红色电池断开线以外。 (6)断开PDU上的断路器。 

(7)将PDU后面总输入断路器切换到断开位置。 (8)将每个上行主电路断路器切换到断开位置。

第二篇: 机房应急预案

####

事故处理应急预案

2017/08/06


前言 1

一、编制目的: 1

二、适用范围: 1

三、应急事件(事故等级)分类: 1

四、故障的分类: 2

五、应急事件处置流程图: 3

六、制冷系统故障(事故)应急预案 4

6.1冷源故障 4

6.1.1运行中的冷冻机组出现故障: 4

6.1.2备用状态中的冷机故障: 4

6.1.3运行中的冷却水泵故障: 5

6.1.4运行中的一次冷冻水泵故障: 6

6.1.5板换故障: 6

6.1.6冷却塔故障: 7

6.1.7冷却塔补水装置故障: 9

6.2 持续制冷部分设备故障: 10

6.2.1二次泵故障 10

6.2.2蓄冷罐故障: 11

6.3水处理设备故障: 13

6.3.1全程水处理器故障: 13

6.3.2旁通水处理器故障: 13

6.3.3化学加药装置故障: 14

6.3.4胶球在线清洗装置故障: 14

6.3.5定压补水装置故障: 14

6.4 漏水故障 15

6.4.1空调漏水 15

6.4.2单台空调供水管路故障 15

七、配电系统应急预案 16

7.1市电断电应急处理预案 16

7.2 开启发电机系统应急处理预案 17

7.3 一路电源出现停电事故 17

7.4两路电源均出现停电事故 18

八、 火灾报警系统应急预案 18

8.1机房火灾应急处理预案 18

8.2 消防控制器电气控制部分故障应急预案 20

前言

随着计算机信息化建设的不断深入,加强机房供配电系统、UPS系统、空调制冷系统设备的安全等方面应对突发事件的处理能力是信息部门目前面临的一项重要任务。

为应对机房设备运行维护工作中可能发生的突发事件,将正在发生或已发生的事故的损害程度减轻到最低,确保人身、机房内各类设备的安全,有必要制定一套具有针对性的完善的应急方案。

1、编制目的:

为确保机房设备的安全与稳定运行,建立一套具有操作性强、完善的应急管理机制,保证事故发生时能够职责明确,迅速、有序、有效地开展应急处置工作,及时控制或消除事故,最大限度地减少人员伤亡,财产损失等后果,并在事故后能够尽快恢复正常的运行状态,结合山东省农信数据中心机房现场的实际情况,特制定本应急预案。

二、适用范围:

山东省农信数据中心B3—F5机房所属所有设备。

3、事故等级的分类:

本事故应急预案分为三个等级,发生重大故障时启用一级预案,发生严重故障时启用二级预案,发生一般故障发生时启用三级应急预案。当事故发生后运维值班员应在5分钟内根据现场故障状况,初步判断故障等级,并启用相对应的响应预案。

故障分类

对业务产生的影响

(典型案例)系统

描述

对应预案级别

重大故障

业务中断

双路电源供电系统同时中断

不间断交流供电系统的部分输出分路或全部输出分路断电

一级预案

制冷系统中断

制冷故障或制冷系统供电中断,温度超过上限要求

严重故障

业务受影响,有中断隐患

单路电源供电中断,系统冗余丢失

IT设备部分单路供电,系统2小时内不能恢复。

二级预案

制冷系统冗余丢失

制冷关键设备故障(如水泵、冷机)

监控系统中断

监控4小时内不能恢复

一般故障

对业务产生轻微影响或业务不受影响

全程水处理器故障等

设备告警信息

三级预案

5、应急事件处置流程图:1、重大与严重故障应急响应流程:

2、一般故障应急响应流程:

6、组织结构、及各人员职责

6.1 应急总指挥职责:

①在紧急情况下全面负责紧急行动的指挥、协调工作;

②协调应急行动所涉及的各岗位人员,统一部署应急预案的实施工作,及紧急处理措施。

③提供、调用必须的紧急响应物资、设备、场地等;

④在必要时向外界求救,例如:119、110、120等,负责配合上级部门进行事故调查处理工作负责组织预案的演练,及时对预案进行调整、修订和补充。

6.2应急副总指挥职责:

①在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责;

②根据获得的应急信息下达命令。

6.3项目经理职责:

①负责尽快收集信息向应急总指挥汇报事故情况;

②组织值班班组及维修人员对现场故障设备抢修和对事态的控制;

③向公司上级汇报协调人员物资等工作;

③听从上级指挥人员的指挥。

6、设备应急处置人员联系方式:

单位

姓名

职务

联系方式

座机

邮箱

七、制冷系统事故应急预案

7.1一级应急预案(重大故障)

7.1.1机房内空调主管路破裂漏水应急预案

预案启用条件:山东省农信数据中心B2—F4机房内空调主供水管路破裂,漏水严重,对机房内设备运行安全产生严重威胁。

应急处置流程:

①省农信数据中心每个空调间均设置有备用空调系统,当机房内一台空调发生漏水、控制器故障等无法启动的故障时,应关闭本台空调开启备用空调机组以防止机房内高温告警;

②当空调机房发生空调供回水管路漏水故障时,运维人员迅速前往现场检查漏水部位及原因,及时查找出故障点,采取措施排除故障。如供水管破裂引起大量泄水时,运维人员应立即关闭漏水空调前端连接主管两侧的主管阀门。迅速启用备用空调,以防止机房内高温告警。

③运维人员立即查,迅速将故障详细情况,造成的损害等信息汇报给项目经理,项目经理向应急总指挥汇报整个故障情况,并启用相应等级应急预案。

④如果仍不能控制大量泄水,则应使用抹布、铁条扎紧漏水部位以减少漏水量。项目经理应组织人员使用吸水器排水、沙袋等工具阻止水势蔓延到机房重点区域,维修人员准备备品备件以及工具进行对设备漏水处进行抢修作业。

⑤运维人员应观察机房内环境,检查漏水是否影响机房内重要设备,PDU、插座等,如有进水应通知客户单位负责人对设备进行处理,防止引起电气短路或水浸漏电。

⑥如漏水可能影响日常操作、保养及申报保险等问题,需在抢修过程中适当时间拍摄照片、做好详细过程记录等工作,以备日后追溯。

⑦爆裂水管修复后值班人员以正常供水压力试压,检查无漏水,确认一切正常后恢复现场设备、管线运行,并加强巡视检查工作。

7.1.2运行过程中两套制冷机同时出现故障时应急预案

预案启用条件:当两套冷机同时出现故障且均无法复位消除故障时,或备用冷机在大修期间无法投入使用而运行中的冷机出现故障停机无法启动时,启用本预案。

应急处置流程:

①运维人员查看当前蓄冷罐冷量,估算蓄冷罐放冷可以带载时间,迅速将故障详细情况,蓄冷罐冷量等信息汇报给项目经理,项目经理向应急总指挥汇报整个故障情况,并启用本预案。

②项目经理通知开利冷机济南办事处工程师,1小时内前往现场协助维修,同时项目经理联系本地冷库,购买冰块。

③当机房内温度高于28℃时,将机房空调主备机全部开启,风量调至最大。将购买的碎冰块盛于水桶中,放入机房内用风机吹风进行应急降温。将机房防火门全部敞开,走廊内窗户全部打开,使机房内保持通风。

④如机房内部温度继续升高,当2#蓄冷罐出口端温度传感器温度高于室外湿球温度2℃时,将冷源手动强制调整至经济模式(即板换制冷模式),启用室外冷却塔给冷冻水降温。

⑤若是冷机设备损坏导致冷机故障无法开机,如有备件则立即更换,如无备件则立即通知采购部执行应急采购流程。

冷机厂家应急联系方式:

开利冷机厂家报修电话

4009-000-888

开利驻济南工程师黄工

133********

恒华服务电话

4006-967-067

7.1.3两套冷却塔补水装置故障应急预案

(一)制冷模式下

预案启用条件:冷源在制冷模式下(冷机单独制冷工况),当两套冷却塔补水装置因一台设备故障另一台在大修中、两台同时故障或断电等原因造成无法给冷却塔补水。冷却塔无法补水会造成整个冷源因为冷却侧冷却水无法降温导致冷源无法供冷。

应急处置流程:

①当发生两台冷却塔补水装置故障,无法供水时。运维人员首先应查看蓄冷罐冷量,估算蓄冷罐可以带载的时间,迅速将故障详细情况,蓄冷罐冷量等信息汇报给项目经理,项目经理向应急总指挥汇报整个故障情况并启用本等级应急预案。

②如果故障发生时制冷机正在运行,运维人员应关闭制冷机,以及相应的冷却水泵、一次泵,以防止冷却水流量低导致冷机故障停机,同时开启蓄冷罐进行应急放冷。项目经理组织维修人员前往故障现场进行应急抢修。如果蓄冷罐冷量放冷至30%以下,补水装置仍未维修结束,则使用室内消火栓应急补水。

③项目经理联系物业,通知物业消防控制室使用5F室内消火栓对冷塔进行补水。获得准许后,运维人员迅速使用消防水带连接消火栓,使用消防水进行补水。当冷塔接水盘达到正常水位时,开启冷却水泵、一次泵以及制冷机进行应急制冷。

(2)预冷模式下

操作流程:

①当发生两台冷却塔补水装置故障,无法供水时。运维人员首先应查看蓄冷罐冷量,估算蓄冷罐可以带载的时间,迅速将故障详细情况,蓄冷罐冷量等信息汇报给项目经理,项目经理向应急总指挥汇报整个故障情况并启用本套预案。

②如果故障发生时冷源处于预冷模式,运维人员应关闭制冷机,以及相应的冷却水泵、一次泵,同时开启蓄冷罐进行应急放冷。项目经理组织维修人员前往故障现场进行应急抢修。如果蓄冷罐冷量放冷至30%以下,补水装置仍未维修结束,则使用室内消火栓应急补水。

③项目经理联系物业,通知物业消防控制室使用5F室内消火栓对冷塔进行补水。获得准许后,运维人员迅速使用消防水带连接消火栓,使用消防水进行补水。当冷塔接水盘达到正常水位时,无需改变制冷模式,继续使用预冷模式进行应急供冷。

(三)经济模式下

操作流程:

①当发生两台冷却塔补水装置故障,无法供水时。运维人员首先应查看蓄冷罐冷量,估算蓄冷罐可以带载的时间,迅速将故障详细情况,蓄冷罐冷量等信息汇报给项目经理,项目经理向应急总指挥汇报整个故障情况并启用本套预案。

②如果故障发生时冷源处于经济模式,运维人员应关闭相应的冷却水泵、一次泵,同时开启蓄冷罐进行应急放冷。项目经理组织维修人员前往故障现场进行应急抢修。如果蓄冷罐冷量放冷至30%以下,补水装置仍未维修结束,则使用室内消火栓应急补水。

③项目经理联系物业,通知物业消防控制室使用5F室内消火栓对冷塔进行补水。获得准许后,运维人员迅速使用消防水带连接消火栓,使用消防水进行补水。当冷塔接水盘达到正常水位时,无需改变制冷模式,继续使用经济模式进行应急供冷。

7.1.4两台冷却塔故障应急预案

预案启用条件:当两套冷却塔因一台冷塔大修无法运行另一台运行中冷塔出现故障或两台冷却塔同时出现严重故障、严重漏水、断电等原因造成无法工作时启用本预案。冷却塔无法运行会导致整个冷源无法进行供冷工作。

(一)制冷模式下

应急处置流程:

①当两台冷却台均发生故障无法运行时,运维人员首先应查看蓄冷罐冷量,估算蓄冷罐可以带载的时间,迅速将故障详细情况,蓄冷罐冷量等信息汇报给项目经理,项目经理向应急总指挥汇报整个故障情况并启用本套预案。

②运维人员迅速关闭故障冷源,开启蓄冷罐进行应急放冷。项目经理组织维修人员前往故障现场进行应急抢修。当蓄冷罐冷量低于30%时,设备仍未修复,项目经理准备启用《机房高温应急预案》,为机房高温做好物资等储备。

③当室内温度超过28℃时,启用《机房高温应急预案》。

(二)预冷模式下

操作流程:

①当两台冷却台均发生故障无法运行时,运维人员首先应查看蓄冷罐冷量,估算蓄冷罐可以带载的时间,迅速将故障详细情况,蓄冷罐冷量等信息汇报给项目经理,项目经理向应急总指挥汇报整个故障情况并启用本套预案。

②运维人员迅速关闭故障冷源,开启蓄冷罐进行应急放冷。项目经理组织维修人员前往故障现场进行应急抢修。

③如果冷却塔因断电等故障导致无法运行,而非漏水时,则进行以下操作:蓄冷罐放冷过程中,当1#蓄冷罐出口处温度传感其温高于室外湿球温度2℃,开启两套冷却循环水泵,使用自然风给冷却水降温,同时关闭预冷模式,将两套冷源均改为经济模式。如果机房内温度继续上升至28℃则启用《机房高温应急预案》。

④如果冷却塔因为漏水故障导致无法运行则当蓄冷罐冷量低于30%时,准备启用《机房高温应急预案》,为机房高温准备好物资等储备。当机房温度超过28℃时启用《机房高温应急预案》。

(3)经济模式下

操作流程:

①当两台冷却台均发生故障无法运行时,运维人员首先应查看蓄冷罐冷量,估算蓄冷罐可以带载的时间,迅速将故障详细情况,蓄冷罐冷量等信息汇报给项目经理,项目经理向应急总指挥汇报整个故障情况并启用本套预案。

②果冷却塔因断电等故障导致无法运行,而非漏水时,则进行以下操作:维修人员紧急对冷却塔抢修,同时冷却塔风机在不运行状态下开启冷却循环水泵,使用冷却塔自然蒸发进行冷却板换。如果机房内温度继续上升至28℃则启用《机房高温应急预案》。

7.1.5机房高温应急预案

预案启用条件:数据中心机房内由于冷源故障、水冷空调故障、断电故障等原因造成机房内温度升高超过28℃时,短时间内不能恢复制冷,并且机房温度持续升高,则启用本预案。

应急处置流程:

①项目经理将机房高温原因、设备故障情况等信息汇报给应急总指挥并启用本预案。

②项目经理组织维修人员对造成高温的故障进行抢修,同时运维人员将精密空调主备机全部开启,并且风量调整至最大。

③运维人员将3F、4F新风机调整至压缩机制冷模式,同时风机频率调整至50Hz,给数据中心内部送强冷风。

④应急总指挥通过项目经理呈送的高温故障排除时间、故障原因等信息,判断是否需要购买冰块,如需购买冰块则通知项目经理执行冰块紧急采购流程。

④冰块抵达现场后,运维人员将冰块盛于桶中置于高温机房内部,使用风机吹冰块进行应急制冷。

机房高温故障解除后项目经理编写《故障处理报告》。

8.1 二级应急预案(严重故障)

8.1.1一套制冷机源故障应急预案

预案启用条件:一套冷机出现故障告警,如果运维人员现场对故障冷机复位操作,并但故障不能消除,需对冷机进行维修时,启用本预案。一套冷机故障会导致制冷系统失掉制冷冗余。

应急处置流程:

①当运行中的制冷机出现故障时,DDC故障处理程序会向控制器发出报警命令,运维人员现场检查冷机故障原因,如确认为冷机故障,复位后并不能消除,则运维人员通过监控平台启动备用冷源,同时关闭关闭故障冷源。

②值班人员将制冷机故障详细原因、造成的影响等情况向项目经理进行汇报,维修人员现场查看故障原因,判断故障需要维修时间,并启用本预案。

②项目经理组织维修人员对制冷机进行维修,如需备件采购则进行紧急采购流程。如需厂家工程师技术支持则联系开利驻济南办事处工程师黄工:133******** 或开利冷机售后电话:4009-000-888。

③在故障未解决前,值班人员加强巡检频次,由现场每2小时巡检一次改为1小时巡检一次,保证设备运行可靠。

④当设备修复结束后项目经理对整个故障原因以及修复过程进行记录并编写《故障处理报告》。

8.1.2 冷却水泵故障应急预案

预案启用条件:当冷却水泵因为变频器故障、断电故障、电机故障、漏水故障等原因需长时间维修,暂时无法启用故障冷却泵所在的冷源时,启用本预案。

应急处置流程:

①当监控平台显示冷却水泵故障停机时,运维人员首先在监控平台上检查冷机冷凝温度,一般情况下,冷却水泵停止运行后冷机马上会因排气压力高故障停机。如果冷机冷凝温度数据正常平稳,现场查看水泵运行正常,则可以判断为BA误报。如果冷机冷凝压力高故障停机,则可以确认为冷却水泵故障。如果为板换制冷模式需前往现场判断冷却水泵是否为故障停机。

②确认为冷却水泵故障后,运维人员需将故障情况,造成的影响等信息上报给项目经理,并启用本预案。

③运维人员通过监控平台关闭冷却泵故障的制冷单元,开启备用制冷单元,项目经理组织维修人员对设备进行应急抢修。

④在冷却水泵故障解除前,运维人员应加强对运行中的制冷单元的巡检频次,由2小时巡检一次改为1小时巡检一次,保证设备运行可靠。

④当设备修复结束后项目经理对整个故障原因以及修复过程进行记录并编写《故障处理报告》。

8.1.3一次冷冻水泵故障应急预案

背景:当一次冷冻水泵因为断电故障、电机故障、漏水故障等原因需长时间维修,暂时无法启用故障一次冷冻水泵所在的冷源时,启用本预案。

应急处置流程:

①在监控平台上检查制冷机蒸发温度,如果蒸发温度快速降低,则可判断一次冷冻泵故障停机,如果制冷机蒸发温度数据正常平稳,现场查看水泵运行正常,则可以判断为BA误报。如果为板换制冷模式需前往现场判断水泵是否为故障停机。

②确认为一次冷冻水泵故障后,运维人员需将故障情况,造成的影响等信息上报给项目经理,并启用本预案。

③确认为一次泵故障后,运维人员需通过监控平台迅速关闭故障一次泵所在制冷单元,防止制冷机因冷凝温度高告警停机。关闭故障冷源后,开启备用制冷单元进行制冷。

④在冷却水泵故障解除前,运维人员应加强对运行中的制冷单元的巡检频次,由2小时巡检一次改为1小时巡检一次,保证设备运行可靠。

⑤当设备修复结束后项目经理对整个故障原因以及修复过程进行记录并编写《故障处理报告》。

8.1.4板换故障应急预案

预案启用条件:冷源处于经济模式或预冷模式下,当板换因为严重漏水无法运行时启用本预案。

应急处置流程:

A.在经济模式下出现板换漏水情况:

①运维人员发现板换漏水严重需要维修后才能运行时,首先通过监控平台将备用冷源开启,如1#板换冷却侧漏水,则将板换冷却水进水出水手动阀门关闭。开启板换冷却水将板换漏水情况造成的影响汇报给项目经理。

②将另一套冷源设置为经济模式,开启另一套冷源的一次泵、冷却泵以及冷却塔。

③关闭板换故障冷源的一次泵、冷却水泵以及冷却塔。

④关闭故障板换的进水阀与出水阀,对漏水处进行维修。

B.在预冷模式下出现板换漏水的情况:

①将板换漏水情况造成的影响汇报给上级主管。

②将另一套冷源设置为预冷模式,开启另一套冷源的一次泵、冷却泵以及冷却塔。

③关闭板换故障冷源的一次泵、冷却水泵以及冷却塔。

④关闭故障板换的进水阀与出水阀,对漏水处进行维修。

8.1.5一台冷却塔故障应急预案

A.冷却塔风机故障:

预案启用条件:值班人员在巡检过程中发现一台冷却塔的四台风机中有一台无法启动。

应急处置流程:

①检查风机不运行原因,判断为何种故障,如现场能够修复则进行修复处理并记录在案,如不能进行修复则进行一下操作。

②如当前为冷机制冷模式,检查制冷机冷凝温度,确定当前制冷机运行状态是否稳定。

③开启备用制冷系统,当前运行何种模式,备用系统设置为何种模式运行。

④闭关当前出现冷却塔的制冷单元。

⑤将详细故障及操作情况汇报给上级主管,上级主管制定维修方案,及时进行抢修作业。

B.接水盘漏水故障:

预案启用条件:值班人员在巡检过程中发现接水盘漏水故障。

应急处置流程:

①检查接水盘漏水原因,如果为简单渗漏应立即使用玻璃胶进行不漏处理,如在有水状态下无法不漏需在本套制冷单元停机时进行不漏处理。

②如为大量漏水应立即汇报给上级主管。

③开启备用制冷单元,当前何种模式运行,备用制冷单元设为何种运行模式。

④当备用制冷单元开启后关闭冷却塔漏水的制冷单元。

⑤关闭冷却塔补底部浮球阀前部手动阀以及电动阀前部手动阀。

⑥关闭冷却塔进水阀以及出水阀,打开冷却塔排水阀将冷却塔内部冷却水拍净。

⑦使用玻璃胶对冷却塔漏水处进行补漏处理。

⑧冷却塔维修结束后对整个维修过程进行记录。

C.布水槽溢流故障:

预案启用条件:运维人员在巡检过程中发现冷却塔顶部布水槽出现严重溢流。

应急处置流程:

①检查阀门状态,确保阀门在正确的开度(蓝色标示)。

②检查并清理布水槽顶部布水孔是否有堵塞,冷却塔长时间运行会导致补水孔被冷却塔内部结垢堵塞。

③清理结束后仍出现溢流情况则取下布水孔缩小套,增加布水孔水流量。

8.1.6一套冷却塔补水装故障应急预案

预案启用条件:值班人员在巡检过程中发现一套冷却塔补水装置故障,无法运行。

应急处置流程:

①查看补水装置故障原因,如果为能直接处理的小故障则直接处理。

②如无法直接处理,值班人员向上级主管汇报故障情况。

③上级主管制定维修计划确定维修方案时间。运维人员加强对运行中的补水装置的巡检。

8.1.7二次泵故障应急预案

预案启用条件:值班人员发现监控平台显示运行中的二次泵故障报警并停机。

应急处置流程:

①BA系统会在自动状态下根据内部逻辑控制自动切换到另一台备用状态下的二次泵。水泵切换后应前往现场检查故障原因并记录在案,上级主管制定维修计划。

②如果BA系统无法自动切换到备用二次泵,则需要在监控平台上将备用二次泵设置为手动状态,设置频率40Hz,远程手动开启备用二次泵。操作结束后值班员需前往现场确认水泵是否正常运行,并查看故障原因并上报上级主管。

③如果整个制冷系统在手动状态下运行,值班人员在巡检时发现二次泵配电柜故障灯亮起并且停机,应将备用二次泵配电柜上旋钮旋至手动位置,调整变频器频率至40Hz,按下启动按钮,手动本地开启备用二次泵。查看故障二次泵故障原因,按下复位键能否消除故障,详细记录处理方法以及故障原因并汇报给上级主管。

8.1.8蓄冷罐故障应急预案

预案启用条件:蓄冷罐焊接处开焊或者阀门处漏水严重,造成蓄冷罐需停止运行进行检修时启用本预案。

A.蓄冷罐放冷状态下故障

应急处置流程:

①值班人员应迅速将蓄冷罐故障情况漏水流量造成的影响汇报给项目经理并启用本预案。

②值班人员迅速开启制冷单元,然后根据当前模式设置开启板换或制冷机进行制冷。

③制冷机或板换制冷开启后,通过监控平台开启蓄冷罐应急旁通电动阀(M03),关闭蓄冷罐进水出水电动阀(M02、M01),现场关闭蓄冷罐进水出水手动阀。

③开启故障蓄罐顶部的排气阀,开启一个下排阀对故障蓄冷罐进行排水(只开启一个下排阀,开启过多下排阀会造成排水量大而进气量小,造成蓄冷罐被抽憋),当排水排至开焊处一下,不在溢流时,停止排水,协调人员进行补焊处理。

④蓄冷罐维修结束后应将2#蓄冷罐出水电动阀(M02)开启,手动出水阀(ZLJF2-DF-TES-1)打开很小的一点缝隙对蓄冷罐进行补水,1#蓄冷罐进水阀仍保持关闭状态,蓄冷罐顶部的自动排气阀会将内部的空气排出。

⑤蓄冷罐补水结束后,由于及补水期间蓄冷罐未运行,内部水温会高于系统回水水温。开启1/2开度1#罐进水阀(ZLJF2-DF-TES-2)与2#罐出水阀(ZLJF2-DF-TES-1),开启1#罐进水电动阀M(01),蓄冷罐应急旁通保持打开,对蓄冷罐内部冷水进行降温。当蓄冷罐内水温与冷冻水主管回水温度相差不大于2℃时全部开启蓄冷罐进水阀与出水阀,关闭应急旁通。

⑥当整个蓄冷罐维修操作结束后,项目经理记录整个维修过程并出具《故障处理报告》。

B.蓄冷罐冲冷状态下故障:

应急处置流程:

①值班人员应迅速将蓄冷罐故障情况漏水流量造成的影响汇报给上级主管。

②通过监控平台开启蓄冷罐应急旁通电动阀(M03),关闭蓄冷罐进水出水电动阀(M02、M01),现场关闭蓄冷罐进水出水手动阀。

③开启故障蓄罐顶部的排气阀,开启一个下排阀对故障蓄冷罐进行排水(只开启一个下排阀,开启过多下排阀会造成排水量大而进气量小,造成蓄冷罐被抽憋),当排水排至开焊处一下,不在溢流时,停止排水,协调人员进行补焊处理。

④蓄冷罐维修结束后应将2#蓄冷罐出水电动阀(M02)开启,手动出水阀(ZLJF2-DF-TES-1)打开很小的一点缝隙对蓄冷罐进行补水,1#蓄冷罐进水阀仍保持关闭状态,蓄冷罐顶部的自动排气阀会将内部的空气排出。

⑤蓄冷罐补水结束后,由于及补水期间蓄冷罐未运行,内部水温会高于系统回水水温。开启1/2开度1#罐进水阀(ZLJF2-DF-TES-2)与2#罐出水阀(ZLJF2-DF-TES-1),开启1#罐进水电动阀M(01),蓄冷罐应急旁通保持打开,对蓄冷罐内部冷水进行降温。当蓄冷罐内水温与冷冻水主管回水温度相差不大于2℃时全部开启蓄冷罐进水阀与出水阀,关闭应急旁通。

⑥⑥当整个蓄冷罐维修操作结束后,项目经理记录整个维修过程并出具《故障处理报告》。

9.2 三级应急预案(一般故障)

9.2.1 全程水处理器故障预案

预案启用条件:全程水处理器出现故障,如排污阀关不严,取样阀无法打开等故障时,启用本预案。

应急处置流程:

①如全程水处理器出现反洗排污阀关闭不严或无法打开、设备控制器失灵无反洗等影响设备正常反洗的故障时,为预防设备内部物理过滤滤网堵塞,应打开全程水处理器旁通阀,然后关闭进出水阀。对设备维修结束后先开启进出水阀然后在关闭旁通阀。

②如果全程水处理器取样阀无法开启或者电导率仪、PH仪显示异常等不影响设备反洗的故障时,则不需切换到旁通,继续使用并上报项目经理,并制定维修计划。

9.2.2旁通水处理器故障预案

预案启用条件:旁通水处理器连接处出现漏水、水泵电机无法运行、排污阀无法关闭、开启、关闭不严或设备控制器出现等导致设备无法正常运行的故障时,启用本预案。

应急处置流程:

①运维人员前往现场查旁滤装置故障原因,如能现场解决则立即解决,如不能结局则将故障情况、造成的影响等信息汇报给项目经理。项目经理制定维修计划。

②运维人员不能解决需关闭旁滤装置电源,关闭旁滤装置进水出水阀门。

③在设备台账中记录设备故障发生时间,故障状态等信息。

④制定维修计划,确定维修时间。

⑤旁滤设备故障仍可以运行此套冷源,在运行过程中需关注冷却水水质。

9.2.3化学加药装置故障预案

预案启用条件:化学加药装置出现加药泵无法加药、控制柜电源空开跳闸、等使设备正常运行的故障时,启用本预案。

应急处置流程:

①值班人员前方现场查看故障原因,如能现场解决则当场解决。

②如不能解决,并且设备故障导致加药装置无法正常加药,如加药泵一直加药、加药泵完全不加药、取样阀无法关闭等影响设备使用。应关闭设备电源,关闭设备进水阀与出水阀。向项目经理汇报故障详细情况,项目经理制定维修计划。

③加药装置故障时,本套冷源可以继续运行。但再运行过程中需通过全程水处理器监控水质变化情况,如冷却塔内出现绿藻,则应手动向冷塔内添加杀菌灭藻剂。

9.2.4胶球在线清洗装置故障预案

预案启用条件:胶球在线清洗装置出现故障告警,并且无法运行时启用本预案。

应急处置流程:

①运维人员检查故障原因,如能当场处理则立即处理并记录在案。

②如不能处理则向项目经理汇报故障状态、原因,项目经理制定维修计划。

④在胶球在线清洗装置故障未修复这段时间,增加冷却塔清洗频次,由每月一次增加为每月两次,保证冷却水清洁无杂质,以减少水质对冷凝器的影响。

9.2.5 定压补水装置故障预案

预案启用条件:压补水装置故障,无法正常补水时,启用本预案。

应急处置流程:

①运维人员检查故障原因,如能现场解决则立即解决,如不能解决应向项目经理汇报详细故障原因。

②在补水装置故障未解决的这段时间应加强巡检频次,当压力低于0.4MPa时应通过手动补水的方式对系统补水。

③项目经理制定维修计划。

9.2.6空调漏水故障预案

预案启用条件:值班人员发现监控平台显示空调间内单台空调漏水报警,检查漏水量不大,且漏水未对机房内其他设备未造成影响时,启用本预案。

应急处置流程:

①发生机房漏水时,报告漏水事件,并及时进行查看漏水原因,进行故障排除。

②若空调加湿、排水系统漏水,运维人员迅速将精密空调加湿阀门关掉,并查处漏水部位,进行更换或维护处理。

③若水系统空调出现系统管路漏水,则运维人员应立即上报,停用故障空调,迅速关闭漏水空调的冷冻水进水、出水阀门。清除机房积水,及时对渗漏水部位进行清理更换,同时启动备用空调。

9.1.9冷源DDC控制器故障

预案启用条件:当冷源DDC控制器因为断电导、进水等原因造成故障停机时,DDC控制器所控制的水阀中板换旁通电动阀与板换出水电动阀会因为失去前端控制变为常开状态。冷机冷却水旁通电动阀、冷机冷却水进水电动阀、快速回水电动阀、冷机冷冻供水电动阀以上四个是调节阀,当失掉前端控制信号后会自动闭合。而冷源DDC所控制的水泵如冷却水泵、一次泵会继续执行控制器故障前的运行状态与频率,不再依据DDC内部控制程序进行频率调节。当冷源DDC出现故障时启用本预案。

应急处置流程:

①当冷源DDC出现断电、进水等无法运行的故障时,运维人员首先应前往B3制冷机房配电室2关闭故障冷源DDC电源,然后关闭相应系统的冷却水泵以及一次泵。运维人员通过监控平台启动备用冷源系统。

②当冷源DDC故障时,制冷系统处于非低负荷模式或低负荷模式下冲冷工况。应当首先关闭B3制冷机房内电动阀配电箱内一次侧电动阀电源,包括板换旁通电动阀、板换出水电动阀、冷机冷却水旁通电动阀、冷机冷却水进水电动阀、快速回水电动阀、冷机冷冻供水电动阀六个电动阀,以防止失去前端控制信号导后动态调节阀自动关闭。关闭一次侧阀门电源后,根据冷源运行模式手动调节电动阀进行手动制冷。

③如果冷源DDC故障无法解除,项目经理应联系BA安装人员(王建185********)进行现场技术支援,在未解除前冷源应手动运行。

 

 

第三篇: 机房应急预案

XX银行XX支行机房供电系统应急演练及总结

为保证机房信息系统的安全稳定运行,验证供配电系统出现问题时核心系统的应急能力,提高供电系统及科技人员及时准确判断与处理突发事件的水平,XX支行成功组织实施了机房供电系统专项应急演练。

加强组织领导 我支行成立了应急演练领导小组,细化分工、协作配合,确保演练过程顺利实施。演练人员认真检查梳理演练项目,对风险点进行充分评估,准备防范措施,确保演练工作顺利实施。

充实演练场景 我行机房目前采用市电输入、UPS并行的供电模式,根据这一实际情况,应急演练领导小组成员集思广益,充实演练场景,针对单路市电供电中断,切换发电机供电、一路UPS系统输出中断等多种场景进行了演练,分别验证了市电的切换开关状态良好,市电均能单独承载机房所有负载;市电与发电机的切换开关状态良好,发电机能承载机房所有负载;UPS的配电设施可以独立承载机房全部计算机设备负载。

锻炼演练人员 此次演练工作本着首先保证成功、同时兼顾练兵的原则,在保证每个环节不出纰漏的同时,让参与演练人员充分了解除自身环节之外的所有步骤,确保参与演练人员能够胜任各个环节,保证人人可以“召之即来、来则能战、战则必胜”。切实提升机房操作人员和技术支持人员对供电系统的故障反应和应急处理能力。

认真总结归纳 此次演练取得了圆满成功,也存在部分需要改进或提高的地方:一是加强发电机的保养和维护。对发电机每个月至少需启动一次,每半年更换一次燃油,以保障其工作正常,同时要另储备一桶柴油,以备紧急之需;二是对供电线路定期进行检修,要保证供电线路正常通畅;三是对恢复后的供电要进行先检测后使用,使用发电机供电时,应先保证电压、电流稳定后再进行输出送电,保障用电设备安全。同时将需要改进的项目在《XX银行XX支行信息系统应急预案》中进行了补充和完善。

整个演练过程中,领导组织有序,全体参演人员密切配合、分工明确、职责清晰,顺利完成了各项演练内容,验证了应急预案的有效性和可操作性,提高了机房供电系统应急处置能力,同时也锻炼了一批电力系统应急专业胜任人员。

XX银行XX支行

第四篇: 机房应急预案

机房应急预案

随着XXX信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是信息部门目前面临的一项重要任务。

为应对机房可能发生的突发事件,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。

1.1 机房突发事件分类

  1.自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。

  2.事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。

3.人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络与信息系统的损坏。

1.2 应急处理人员组织机构

1.3 应急机构人员岗位职责

1、应急总指挥职责

(1)保证在任何时间,及时协调应急行动所有涉及的岗位人员;

(2)提供必须的紧急响应设备;

(3)在紧急情况下全面负责紧急行动;

(4)在必要时向外界求救,例如:119、110、120等。

2、应急副总指挥职责

(1)在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责;

(2)根据获得的应急信息下达命令。

3、各相关设备负责人职责

(1)负责尽快收集信息向应急总指挥汇报事故情况;

(2)负责现场临时设备抢救和对事态的控制;

(3)听从上级指挥人员的指挥。

1.4 信息与网络安全突发事件处理原则

1.预防为主。立足安全防护,加强预警,重点保护基础信息网络和关系信息安全、稳定的重要信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施充分发挥各方面的作用,共同构筑信息与网络安全保障体系。

2.快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判,果断决策,迅速处置,最大程度地减少危害和影响。

3.分级负责。按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制。根据各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。

4.以人为本。把保障人员以及公共利益的安全作为首要任务。

5.常备不懈。加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预案切实有效,实现网络与信息安全突发公共事件应急处置的科学化、程序化与规范化。

   

1.5 机房应急开关机具体措施

机房各设备关闭顺序如下:

1.6 服务器及存储设备故障处理

1.6.1 排错流程

1.6.2应急处置具体措施

服务器设备损坏应急处置措施

A、关键应用系统所在服务器设备损坏后,应立即查明原因,使用备份服务器替换损坏设备,并立即恢复应用系统正常使用;

B、立即与设备提供商联系,请求派维修人员前来维修。

服务器软件损坏紧急处置措施

A、迅速查找原因,尝试重启系统。使用备份进行恢复。必要时联系开发商;

B、当发现服务器感染有病毒后,应立即将该机从网络上隔离出来。并启用杀病毒软件对该机进行杀毒处理,同时使用病毒检测软件对其他机器进行病毒扫描和清除工作。经技术人员确认确实无法查杀该病毒后,应作好相关记录,并迅速联系有关产品商研究解决;

C、当因空调,电力等问题需要关闭所有服务器时,应遵循如下步骤:

先关闭所有应用服务器和数据库服务器,再关闭存储设备。启动所有服务器时,应先打开存储设备,再打开数据库服务器,最后打开应用服务器。

1.6.3 服务器突发情况记录文档

日期

故障发生时间

服务器名称

IP

现象

处理情况

故障恢复时间

处理工程师

备注

1.7 网络设备故障处理

1.7.1 网络设备排错流程

网络设备的排错流程

下面流程图是网络维护人员所应采取的排错模型,当发生网络故障时应按照此流程快速进行定位、排除故障。

1.7.2 网络系统故障突发事件分级

故障等级

故 障 现 象

1级

网络完全拥塞或设备宕机

网络或设备处理能力严重受影响,对最终客户的业务运作有严重影响

网络或设备故障对重要的客户(公司经理级或重要的部门)造成严重影响

2级

网络或设备的性能严重下降,对最终客户的业务运作产生重要影响

部分区域网络故障

一般网络节点发生故障

大部分客户的网络通讯质量下降

3级

网络或设备性能受损,但最终客户大部分业务仍可正常工作

报警出错和操作命令反常

4级

其它一般的故障,不影响系统的整体运行,不影响大部分客户的使用

1.7.3 应急措施

黑客攻击时的紧急处置措施

A、当发现网页内容被篡改、Internet接入路由器有未知用户登录或通过其他方式发现有黑客正在进行攻击时,应立即向信息部相关人员通报情况;

B、在信息部人员授权下,立即备份当时的log日志并采用端口限制方式阻断外部的入侵,观察被攻击的服务器等设备状态,同时向信息部领导汇报情况;

C、协调相关应用部门,与信息部有关技术人员一同负责被破坏系统的恢复与重建工作;

D、协助信息部人员协同有关部门共同追查非法信息来源;

E、情况严重的,根据突发事件级别应及时向有关上级部门汇报。

病毒安全紧急处置措施

A、当发现计算机感染有病毒后,应立即将该机从网络上隔离出来;或从网络设备状态发现病毒爆发应采取show mac-address sh arp定位或IP查询将病毒机器所在的网络设备端口shutdown;

B、通知维护人员对该设备的硬盘进行数据备份;

C、启用杀病毒软件对该机进行杀毒处理,同时进行病毒检测软件对其他机器进行病毒扫描和清除工作;

D、如发现杀病毒软件无法清除该病毒,应立即通知用户并向及信息部负责人报告,经信息部技术人员确认无法查杀该病毒并同意格式化硬盘后,作好相关记录,并格式化硬盘;

E、机器恢复后重新开启网络设备的相应端口;

F、认为情况极为严重,根据突发事件级别应及时向有关上级部门汇报。

广域网线路中断紧急处置措施

A、链路出现问题后,网络维护人员应立即信息部负责人报告,沟通地方节点技术人员共同迅速判断故障,查明故障原因;

B、如属我方管辖范围,由双方技术人员立即配合予以恢复。如遇无法恢复情况,立即进行备件更换或向有关厂商请求支援;

C、如属运营商管辖范围,立即与运营商维护部门申报故障,请求修复;

D、根据突发事件级别应及时向有关上级部门汇报。

局域网中断紧急处置措施

A、局域网中断后,网络维护人员应立即判断故障节点,查明故障原因,并向信息部领导汇报;

B、如属线路故障,更换新线路或重新安装线路;或从最近飞线至故障设备;

C、如属路由器、交换机等网络设备(光模块)故障,应立即查找是否有相关备件可以替换,或与设备提供商联系更换设备,并调试畅通;

D、如属路由器、交换机配置文件破坏,应迅速按照备份配置文件重新配置,并调试畅通;如遇无法解决的技术问题,立即向有关厂商请求支援;

E、情况严重的,根据突发事件级别应及时向有关上级部门汇报。

1.7.4 网络突发事件记录文档

日期

故障发生时间

线路

设备IP

端口

现象

处理情况

故障恢复时间

处理工程师

备注

1.8 空调设备故障处理

若空调损坏,应第一时间通知厂家上门进行维修,并及时报告信息部相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。

1.9 消防设备故障处理

一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;

人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;

人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。

1.10 电源设备故障处理

热力机房目前使用UPS系统,在紧急情况发生时,应按如下步骤进行关机:

(1)确认所有负载均已安全关机。

(2)关闭UPS负载电源。

(3)将UPS的系统启用开关切换到off 的状态。

(4)将DC电池连接断路器切换到off的位置。

(5)将所有电池拉出到红色电池断开线以外。

(6)断开PDU上的断路器。

(7)将PDU后面总输入断路器切换到断开位置。

(8)将每个上行主电路断路器切换到断开位置。

1.11 维护小组成员

1.11.1 现场服务人员联系方式

职务

姓名

手机

邮件

1.11.2 厂家协助服务人员联系方式

姓名

公司

电话

职责

网络设备代理商

服务器及小型机等设备代理商

机房弱电相关事项

机房强电相关事项

机房空调

UPS设备

发电机设备

物业工程部

消防设施

1. 若不给自己设限,则人生中就没有限制你发挥的藩篱。2. 若不是心宽似海,哪有人生风平浪静。在纷杂的尘世里,为自己留下一片纯静的心灵空间,不管是潮起潮落,也不管是阴晴圆缺,你都可以免去浮躁,义无反顾,勇往直前,轻松自如地走好人生路上的每一步3. 花一些时间,总会看清一些事。用一些事情,总会看清一些人。有时候觉得自己像个神经病。既纠结了自己,又打扰了别人。努力过后,才知道许多事情,坚持坚持,就过来了。4. 岁月是无情的,假如你丢给它的是一片空白,它还给你的也是一片空白。岁月是有情的,假如你奉献给她的是一些色彩,它奉献给你的也是一些色彩。你必须努力,当有一天蓦然回首时,你的回忆里才会多一些色彩斑斓,少一些苍白无力。只有你自己才能把岁月描画成一幅难以忘怀的人生画卷。

第五篇: 机房应急预案

电子政务运维中心机房应急预案

***电子政务运维服务中心机房

应急预案

一、目的 .................................................................... 3 二、基本原则 ................................................................ 3 三、适用范围 ................................................................ 3 四、应急事件级别定义 ......................................................... 4 五、组织机构及职责 ........................................................... 5 5.1 应急领导小组组织机构..................................................... 5 5.2 应急领导小组职责 ........................................................ 5 5.3应急小组成员职责 ......................................................... 5 六、应急响应机制............................................................. 6 6.1基本处理流程 ............................................................. 6 七、应急方案 ................................................................ 7 7.1互联网中断应急预案(暂定为二级事件) ..................................... 7 7.2 运维中心ITM监控软件应急预案(暂定为二级事件)........................... 7 7.2.1运维中心ITM监控软件部署情况 ......................................... 7 7.2.2数据库操作部分 ....................................................... 8 7.2.3 ITM操作部分 ......................................................... 8 7.2.4 ITSM操作部分 ........................................................ 9 7.3 运维中心托管应用应急预案(暂定为三级事件).............................. 11 7.4 TSM异地备份应急预案(暂定为二级事件) ................................... 11 7.5 运维中心市电中断应急预案(暂定为二级事件).............................. 12 7.5.1 运维机房操作流程 .................................................... 12 7.5.2 柴油发电机房操作流程 ................................................ 13 7.6发电机故障应急预案(暂定为二级事件) .................................... 15

一、目的

为科学应对网络与信息安全突发事件,提高我省电子政务运维服务中心应对突发应急事件的处理能力,确保信息系统安全运行,维护网络和系统正常运行,降低信息安全事件对运维机房所造成的损失和影响,编制本预案。 二、基本原则

(1)居安思危,预防为主。实行突发事件统一管理、统一指挥、各级负责的原则;

(2)统一领导,分级负责,全面规划、及时发现、快速反应、措施果断的原则。依据《***电子政务统一平台故障等级划分》对突发事件进行分级管理,并按照事件级别迅速上报相关领导和责任人。

(3)制度规范,加强管理。严格按照《***电子政务网运行维护规范》、《***电子政务中心机房维护作业规范》事件处理流程规范操作,使突发应急的工作规范事件化、制度化。

(4)快速反应,协同应对。当突发事件发生时,各级要立即按应急预案,投入应急工作;加强各个部门配合协作。形成统一指挥、反应灵敏、功能齐全、协调有序、运转高效的应急管理机制。

(5)主动报告原则:当突发事件发生后,要及时报告应急预案实施情况。 三、适用范围

● 运维中心互联网中断应急预案 ● 运维中心运维监控软件应急预案

● 运维中心托管系统应急预案 ● 运维中心异地备份应急预案 ● 运维中心市电中断应急预案 ● 运维中心发电机故障后应急预案 四、应急事件级别定义

根据网络与信息安全突发公共事件的可控性、严重程度和影响范围,一般分为四级:I级(特别重大)、II级(重大)、III级(较大)、IV级(一般)。国家有关法律法规有明确规定的,按国家有关规定执行。

(1)I级(特别重大):重要网络与信息安全系统发生全市性大规模瘫痪,事态发展超出相关主管部门的控制能力,对国家安全、社会秩序、经济建设和公共利益造成特别严重损害的突发公共事件。

(2)II级(重大):重要网络与信息安全系统造成全市性瘫痪,对国家安全、社会秩序、经济建设和公共利益造成严重损害,需要跨部门、跨地区协同处置的突发公共事件。

(3)III级(较大):某一区域的重要网络与信息安全系统瘫痪,对国家安全、社会秩序、经济建设和公共利益造成一定损害,但不需要跨部门、跨地区协同处置的突发公共事件。

(4)IV级(一般):重要的网络与信息安全系统受到一定程度的损坏,对公民、法人和其他组织的权益有一定影响,但不危害国家安全、社会秩序、经济建设和公共利益的突发公共事件。

五、组织机构及职责 5.1 应急领导小组组织机构 组 长: 副组长: 成 员:

5.2 应急领导小组职责

(1)负责编制、修订所辖范围内突发应急事件的《应急预案》。

(2)负责协调和督促整个应急事件的处理过程。有针对性地组织专业技术人员对应急突发事件进行增援处理;必要时去现场督促,对于超出界定的突发事件,尽快提出紧急补救措施进行恢复。

(3)应急事件处理结束后,协调解决故障现场的恢复生产工作。 (4)定期或不定期地对应急小组成员进行技能培训和应急演练。 5.3应急小组成员职责

(1)值班人员平时应做好应急事件的监控、预警工作,当应急事件发生后,迅速生产事件上报相关领导,并进行先期处置,如有必要通知二、三线工程师。 (2)二线、三线工程师在接到应急信息后,应积极配合值班人员进行先期处置,迅速赶往故障现场提供技术援助。

(3)对于在应急故障处理期间发生的新问题、新情况,应认真登记,及时上报。对于超出《应急预案》界定的应急事件,应及时汇报应急领导小组,争取尽早提出补救措施进行恢复。

六、应急响应机制 6.1基本处理流程

(1)值班人员平时应做好应急事件的监控工作,对于突发事件应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。对于不在运维中心的故障,应在第一时间内通知负责人去现场处理,密切关注事件流程及进展情况,并做好登记工作上报领导。

(2)正常情况下,要求值班人员在10分钟内进行事件确认。如果属于一般事件则按照事件流程进行分派处理,否则应迅速启动《应急预案》,并严格按照《应急预案》所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处理情况。

(3)在处理过程中,如需其他部门去现场增援处理,应及时向上级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支持赶赴现场援助处理。

七、应急方案

7.1互联网中断应急预案(暂定为二级事件)

(1)密切关注,积极与其他机房值班人员取得联系,准确判断故障位置、数据域。如故障区域属于运维中心范围之内,应立即启动应急预案上报相关领导,同时通知其他机房值班人员加紧监控力度。

(2)检查网络硬件设备运行状态,如发现指示灯有异常告警,及时与对端进行确认。必要时联系市广电工程师检查物理链路,如情况属实,尽快督促广电工程师去现场进行抢修,并上报相关领导。

(3)如发现故障属硬件原因所致,尽快启用备份设备或备用端口,争取将损失减少至最低水平,及时汇报领导,协调更换或维修。

(4)登录核心交换机检查配置信息及其运行情况,如果发现配置信息有被篡改的情况,尽快启用备份数据进行恢复。

(5)坚持由简到繁,由大到小的原则逐步缩小故障范围,最后定位故障点。如果发现网络内部存在严重病毒感染或网络攻击,果断断网,尽快通知相关责任人查杀病毒,并告知技术支持寻求补救措施。

7.2 运维中心ITM监控软件应急预案(暂定为二级事件) 7.2.1运维中心ITM监控软件部署情况

7.2.2数据库操作部分

应用系统要运行,首先应保证数据库能正常工作。如有故障,可以利用vnc远程登录,然后在桌面打开一个命令行终端,输入如下命令: cd /opt/oracle/product/OraHome/bin //进入工作目录 ps –ef|grep ora //查看服务进程

如果输出结果与下图类似,则说明oracle数据库正在运行。否则说明数据库有异常,需要手动重启。

kill -9 **** //杀死相关进程 su – oracle //切换用户

dbstart $ORACLE_HOME //启动数据库服务进程 7.2.3 ITM操作部分

在确保数据库正常运行后,才能依次在每台监控服务器上启动ITM服务进程,具体命令如下:

cd /var/ITManager/bin //进入工作目录 ps –ef|grep ITM //查看服务进程

如果有ITMserver进程,则说明ITM服务正在运行。否则,应手动重启。

nohup ./ITMnurse & //启动ITM服务进程

注意:在重新启动ITMnurse服务前,一定要将以前的相关进程全部杀死,否则它将去自动调用ITM服务,导致启动失败。整个启动过程较慢,大约需要8至10分钟,可以在监控区网管机上通过vnc远程进行操作。

目前,各ITM应用的syslo信息也存放于本地物理磁盘,所以当应用启动后,还应检查syslog运行情况,具体命令如下:

ps –ef|grep syslog //查看服务syslog进程 cd /var/ITManager/syslogcollector //进入工作目录 nohup ./syslogrun.sh & //启动syslog服务进程 ps –ef|grep syslog //核查服务syslog进程 kill -9 XXXX //杀死相关进程 dbshut //停掉数据库进程 Poweroff //关闭服务器 7.2.4 ITSM操作部分

ITSM数据库和应用均部署在*.15.36.24服务器上,可以通过vnc或远程桌面进行登录,进入到服务管理界面,查看ITSMServer、ITSMProxy、itsmdb、ITSMSms及Apache Tomcat cas进程是否正常启动,如异常则应手动进行重启,并作记录。具体情况如下图所示:

7.3 运维中心托管应用应急预案(暂定为三级事件)

(1)检查网络连接、配置是否正常;

(2)利用vnc或远程桌面登录服务器,检查本地服务进程是否正常,如有问题,手动重启相应服务,并做好记录;

(3)检查服务器是否感染病毒,查杀病毒。如发现系统正在遭受网络攻击或被黑客控制,果断断网,并上报托管部门相应领导,以便尽早处理;

(4)积极联系托管单位来机房检查、确认,利用备份数据进行恢复。

7.4 tsm异地备份应急预案(暂定为二级事件)

(1)一般的tsm故障均可以通过系统重启进行恢复。但重启之前必须先检查最近tsm备份情况,系统重新之后应确保带库已正确被挂载,以便能正常备份。

(2)TSM存储备份关机顺序,必须严格按照主机—虚拟带库—扩展柜进行,可通过KVM登录,按“ctrl键”进行选择。但需要注意:每台设备应间隔3-5分钟再关机。

(3)TSM存储备份开机顺序,必须严格按照扩展柜—虚拟带库—主机进行,每台设备应相隔3-分钟再开机。等主机顺利启动后,需要立即检查带库挂载情况,如有异常,应立即重启。

(4)如发现系统正在遭受网络攻击或被黑客控制,应果断断网,查杀病毒并尽快上报领导,以便查明原因。

(5)系统恢复后,应及时检查最近备份数据,并及时通知相关负责人来机房验证备份数据的完整性及其可恢复性。

7.5 运维中心市电中断应急预案(暂定为二级事件)

运维机房市电中断后,应立即电话联系大楼物业(物业值班室电话:88312910转25,82300966),询问停电原因并估计恢复时间,并上报主管部门领导。如若停电时间超过20分钟必须做发电前准备工作,并启动应急预案,具体操作分两部分进行。

7.5.1 运维机房操作流程

7.5.1.1发电前准备工作

(1)关闭市电配电柜内热水器、主任办公室、运维一、运维二、运维三、机房空调、监控区空调,电视墙等大功耗用电设备开关;

(2)确认市电配电柜内钥匙开关是否已置于自动档,如不符,将钥匙开关置于自动挡;

(3)电话联系发电人员,告知机房内发电准备工作已经就绪,等待发电机送电;

7.5.1.2发电机正常供电后

(1)电话联系发电机房人员,确认机房准备一切就绪,可以送电;

(2)等待发电机供电稳定后,将市电配电柜内钥匙开关置于手动档;

(3)检查配电柜面板电压表三相电压是否均在400伏特左右;

(4)检查配电柜面板三个电流表指示针是否均在40安培以下;

(5)检查UPS控制面板是否能正常供电(此时显示“旁路供电” ),确认输入电源频率在50赫兹左右;

注意:在发电机供电时,操作人员不得远离机房,并随时注意市电配电柜及UPS主机表值的变化和告警!

7.5.1.3 市电恢复后

(1)市电恢复大约5-10分钟后,与物业电话联系确认市电供电已经稳定;

(2)电话联系发电人员,告知发电机可以停止供电;

(3)当发电机停止供电后,将市电配电柜内钥匙开关置于自动档(此时市电已开始供电);

(4)检查配电柜面板电压表三相电压是否均在400伏特左右;

(5)检查配电柜面板三个电流表指示针是否均在40安培以下;

(6)检查UPS控制面板是否能正常供电,确认输入电源频率在50赫兹左右;

(7)确认设备工作正常后,将市电配电柜内钥匙开关置于手动档;

(8)检查各办公室设备情况并通知准备供电,保障各位办公室人员人身安全及设备安全;

(9)依次复位市电配电柜内热水器、主任办公室、运维一、运维二、运维三、机房空调、监控区空调、电视墙等电器开关。

注意事项:每个开关复位时应间隔5-10秒,以免引起浪涌现象损坏配电及用电设备。

7.5.2 柴油发电机房操作流程

7.5.2.1启动柴油发电机前的检查及准备工作

(1)检查机油、冷却液液面,是否在规定的范围内;

(2)检查柴油供油管是否已经放入油箱并尽可能插入油箱底部;

(3)检查供油系统是否正常;

(4)检查电瓶电缆连接是否牢靠;

(5)检查发电机配电箱的送电开关是否置于“分”状态;

7.5.2.2 启动柴油发电机

(1)插入启动钥匙将启动开关向右旋转置于打开位置;

(2)按下启动按钮,同时小幅度摆动(左右摆动)油门手柄,待发动机启动后立即松开启动按钮(注意:每次启动时间不要超过5秒,启动间隔不要少于10秒);

(3)将油门手柄调置较小的位置(发动机匀速转动即可),保持发动机匀速运转5-10分钟,待发动机转速正常后才可调整油门手柄;

(4)将油门手柄慢慢向右调整,并注意频率表(指针最高指向50赫兹);

(5)随着油门手柄的逐渐开启,频率表指针指向50赫兹时,稳住油门手柄并将油门手柄固定手轮向右旋转固定牢靠;

7.5.2.3 柴油发电机向运维机房供电

(1)联系机房值班当班人员,确认市电配电柜钥匙开关已经置于自动状态;

(2)询问机房工作人员是否可以拉闸送电;

(3)待机房工作人员确认可以送电时,将发电机控制箱的送电开关向上调至“合”状态,此时已将电送至机房;

(4)注意发电机配电箱的电流表、频率表的变化,随时调整油门手柄,使频率表指针固定在50赫兹(刚刚加入负载时,频率值会变小,应及时调整油门手柄提高频率至50赫兹);

(5)随时注意燃料液面,及时补充发电机所需燃料(如果在更换燃料时,发电机熄火,应立即通知机房工作人员)。

7.5.2.4 正常发电期间

注意:在发电机运转时,操作人员不得远离发电机,并随时注意发电机表值的变化!

(1)发电机控制箱部分:

a、注意频率表数值的变化(应控制在50赫兹);

b、注意电流表数值的变化(每块电流表不得超过40安培);

c、注意电压表数值的变化(每项电压不得高于430伏特);

d、用手触摸发电机机壳检查表面温度是否正常;

(2)柴油机控制箱部分:

a、注意水温表的变化(表针应指在绿格部分);

b、注意油温表的变化(表针应指在绿格部分);

c、注意油压表的变化(表针应指在绿格部分);

d、注意电流表的变化(表针应指向“+”方向);

7.5.2.5 柴油发电机停机

(1)联系机房工作人员,确认发电机断供准备工作是否就绪;

(2)待机房工作人员确认可以断电后,将发电机控制箱的送电开关向下调至“分”状态,并立即将油门手柄向左调整到较小状态;

(3)通知机房工作人员已将发电机供电开关断开;

(4)保持发动机低转速运转3-5分钟后,将熄火开关拉置熄火位置(向右拉),直至发动机完全停止转动;

(5)将启动开关旋转至中间档位,拔出钥匙即完成熄火;

(6)将柴油输油管从油箱中取出,并固定在较高位置(防止油管中的柴油外漏);

(7)盖好油箱,并填写发电机操作、运转登记表。

7.6发电机故障应急预案(暂定为二级事件)

特殊情况下,市电中断后,启动发电机发电时,发电机有故障,不能正常发电,值班人员应及时联系确认,尽快上报领导,寻找其他解决方案。必要时关闭运维中心机房内非关键业务,以保证呼叫中心及ITM系统能正常使用。

(1)监控区的网管机内、外网各留一台,其余的均可以关闭。

(2)按照主机—虚拟带库—扩展柜顺序,关闭TSM备份服务器,H3C存储参照TSM执行。

(3)在监控区通过网管机或VNC关闭省政府动力环境监控、省政府视频监控、省委动力环境监控、政协视频监控以及运维中心视频监控等。

(4)4列5柜内所有服务器均属测试组维护,负责人为相红利,除11/235需要

登录系统正常关机外,其他的均可以直接关机;

(a)192.168.7.235(用户名/密码:administrator/zhaoyikui); (b)192.168.7.11 (用户名/密码:administrator/testsvn);

(5)4列

4柜的CVS服务器、陕投门户测试服务器均可直接关闭;公司邮件、门户及病毒服务器,关闭之前应与李宗斌进行确认。

(6)小机的关机步骤:

a、HMC的操作

运维机房两台IBMP55A无显示输出设备,须受控于HMC进行管理,HMC加电后自动引导系统至登陆界面,使用HMC默认管理口令进行登陆,管理用户:hscroot 口令:abc123,登陆后点击左侧控制列表中的 “服务器管理(M)”项既可查看到该HMC所管理的P系列小型机,在运维机房环境中,该HMC管理了两台P55A型小型机,若某台小型机连接状态提示No Connect,则检查HMC服务器网口到交换机,以及P55A后端HMC口到交换机的网络链路是否正常。

注:运维机房HMC为英文环境,请如图对照进行操作

b、IBM小机停机步骤

运维机房的两台P55A均进行了分区,在停止P55A时,请先关闭各个分区,途中的all分区为全分区,为管理所用,不用进行操作,操作仅对各P55A的lpar1以及lpar2进行,选中分区后在右键功能菜单中选择关闭分区即可,待分区状态为未激活时,可表明分区已被关闭,依次对4个分区进行同样操作。

当所有分区关闭完成后,对这两台P55A进行Poweroff操作,如下图所示:

再弹出的对话框中选择正常关闭

待受管机器状态为Poweroff时候,说明该主机已断电,机器正常关闭。

(7)关闭UPS配电柜内暂时不使用的空开开关。

(8)当UPS电磁容量降至50%时,若市电仍无准确的恢复时间,此时就须将ITM系统关闭,以保证呼叫中心的电话畅通和ITSM正常运行。

(9)当UPS电磁容量降至20%时,若市电仍无准确的恢复时间,此时应暂时关闭呼叫中心主机,关闭机房内所以空开开关。同时将客服电话与所有外线电话线直接相连,密切留意呼叫电话及市电供应情况。

热门标签:
《机房应急预案范文五篇.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:

文档为doc格式