转载于网路上流传的文章,希望对大家有帮助
星期一凌晨两点钟,您的手机突然响了,噩耗传来……机房楼上的水管发生了严重的漏水,公司所有的伺服器、路由器和大部分使用者电脑现已浸泡在水中。而上班时间是早晨8点整。此时此刻您该怎么办?
类似情形是对IT部门灾难应对能力的真正考验.....
转载于网路上流传的文章,希望对大家有帮助
星期一凌晨两点钟,您的手机突然响了,噩耗传来……机房楼上的水管发生了严重的漏水,公司所有的伺服器、路由器和大部分使用者电脑现已浸泡在水中。而上班时间是早晨8点整。此时此刻您该怎么办?
类似情形是对IT部门灾难应对能力的真正考验。对于那些没有制订灾难应对方案的IT部门来说,上述情形无异于是灭顶之灾。在任何有可能发生资料完全遗失的场合,缺乏灾难应对方案就意味着将您的业务置于风险之中,这一点对于那些无力承受灾难打击的中小型企业显得尤为突出。儘管灾难的发生是必然的并且在某种程度上是不可避免的,但做好应对灾难的準备工作却是能力所能及的。IT正逐渐成为各个公司灾难应对方案的焦点。为公司制订一套用于确保业务连续性并且能够从灾难中迅速回复的预案无疑是其IT部门核心价值的一种表现。
六步计画
在灾难应对方案的术语中有两个词特别流行︰业务连续性计画(BCP)和灾难回复计画(DRP)。儘管许多人经常将它们混用,但这两个词的实际观念是有区别的。BCP通常定义了一整套确保公司在面临不利因素的情况下能够继续运转的计画。而DRP实质上是BCP的一部分,它更侧重于在面临灾难时如何回复讯息和系统。举个例子,资料库伺服器的一块硬碟坏了,这样的事件对您的业务连续性构成潜在的威胁却算不上灾难。然而,一根水管破裂殃及机房且淹没了您的资料库伺服器,这种事不仅对业务连续性构成严重威胁,而且也属于灾难回复计画应考虑的範畴。
BCP和DRP的制订很複杂,事实上,大机构往往会指派专人来做这项工作。不过,在没有进行详细的风险分析及其相对应工作的情况下,您仍可以透过下述六个步骤来制订出一套可有效确保业务连续性且能迅速回复的计画。
步骤一︰确定必须的业务行为
制订BCP和DRP的第一步就是确定您们机构必须的业务行为--即那些每天都发生的最基本的业务行为。例如,一个用户服务电话中心至少应具备接听电话、查询用户资料以及记录用户来电事件等功能。而一个法律事务所则必须能够存取用户讯息和电子日程表、收发电子邮件、查询线上法律文献以及拨打接听电话。您可以与您们机构中的一些重要的业务决策者来共同探讨哪些业务行为对于维持业务连续性是必不可少的。BCP的重点自然就应该放在如何回复这些必须的业务行为上。
步骤二︰找出与各业务行为相对应的IT系统
确定了必须的业务行为后,接下来要做的就是找出每个业务行为所倚赖的IT系统。例如,要保证客户服务电话中心能够查询客户资料并且记录客户来电事件,就必须确保那些储存资料的资料库伺服器和业务处理应用程式运转正常。有些情况下,您的核心网路架构也需要为这些必须的业务行为提供一定的保障。当灾难发生后,您必须儘快使这些IT系统回复运转。
步骤三︰针对可预知的合理事件建立威胁处理模式
几乎所有的灾难和业务连续性的中断在某种程度上都是可预知的且都具有一定的合理性。此类事件有可能是自然因素导致的,如︰地震或洪水;也可能是人为的,如︰火灾或蓄意破坏;还可能是由机械故障引起的,如︰硬碟故障或水管破裂。例如,一家坐落于美国俄克拉荷马Wakita镇的客户服务电话中心,其IT系统就存在遭受龙捲风袭击的可能。同样,任何倚赖当代科技的公司都无法逃避电脑硬体的老化失灵。
当您搞清了哪些IT系统对您是非常重要的之后,就应该着手对有可能危及这些系统的相关事件建立威胁处理模式。威胁处理模式能让您用架构化的方法来找出那些对您的业务产生潜在影响最大的威胁及其缓解因素。可透过清单来列举可能导致您的关键IT系统崩溃的原因以及各种威胁的产生是由何种事件引起的。例如,导致客户服务电话中心的业务中断的原因可能是无法存取客户资料资料库。而引起无法存取的事件有电脑硬体故障、电源故障甚至某些更糟的情况,如︰资料中心毁于一场龙捲风。
步骤四︰开发业务连续性计画
至此,您已经列出了必须的业务行为、确定了各业务运转所倚赖的IT系统、设想了可能危及您的IT服务的各种事件,现在是利用您的威胁模型来制订对策的时候了。BCP主要应包含下述四大对策︰容错和故障转移、备份、冷配备和冷场所(cold spares & cold sites)、热配备和热场所(hot spares & hot sites)。
容错和故障转移。该对策旨在利用冗余设备来保障系统在发生单一部件故障时的运转。IT部门最常用的容错和故障转移解决方案有磁碟阵列、丛集技术和电池或发电机电源支援。
备份。本机和异地备份计画是DRP中的一个核心对策。备份使您能够回复或重建遗失的资料。
冷配备和冷场所。冷配备是一些经过简单準备后即可投入运转的离线装置。例如,一组装有公司标準作业系统且设定完好但没有与公司网路相连的伺服器。当出现紧急情况时,您可以透过一些简单的设定和必要资料的还原、拷贝来启用备用系统从而回复运转。类似的,冷场所指的是一些当灾难降临时可起到备用做用的隔离设施。通常,所谓的冷场所不过是一个能容纳大量桌椅的大房间。冷场所对于大多数中小型企业来说还是个奢侈品。
热配备和热场所。热配备是一些随时待命的装置。例如,您将本机资料库中的重要资料不间断的複製到远端设备中,这样在需要的时候便可将用户应用程式重新导向到备用资料。热场所指那些在极短的时间内就能让您回复运转的设施--一般的热场所应当能实现员工的随到随用。热场所拥有即时或几乎即时的备用资料且始终保持待命状态。由于热备件和热场所的维护过于昂贵,因此只有那些非用不可的机构(如︰公共安全机构)才会考虑使用它们。
步骤五︰开发灾难回复计画
并非所有的事情都是可预知的或合理的。最好的例子莫过于2001年发生的911事件。面对这样的浩劫或其他有可能导致资料和服务完全崩溃的重大灾难时,您必须制订出一套回复整个系统的计画。灾难回复往往要求紧迫,因此预备一套详细备案的、经测试的、成熟的回复程式显得非常重要。同样,透过演练回复程式也能帮助您确认资料备份是否成功。务必对您的DRP副本和有效的资料备份实施异地储存。就大多数组织而言,银行的保管箱是实现资料备份和DRP远端储存的最有效、最经济和最安全的解决方案。
步骤六︰测试业务连续性计画并演练灾难回复
测试、测试、还是测试。对于BCP和DRP而言,它们存在的最根本的目的就是在紧要关头这些计画、程式、技术必须有所作为。因此,有必要透过一些计画的或随机的测试来反覆锤炼您的BCP和DRP。这些测试应包含︰每月一次的丛集节点失败演练、定期执行的冷配备伺服器还原工作,或冷、热场所的灾难应变模拟。就算上述几项都没做,您至少也应定期执行异地备份资料的还原工作。记住,异地备份是您抵御资料遗失的最后一道防线。
六个步骤让灾难走开
按照这六个步骤,您完全有能力为您的机构制订一套行之有效的BCP和DRP,从而儘量减少由自然灾害、人为破坏或机械故障所带来的风险。当您的手机再次在凌晨两点钟响起时,您就毋需为如何回复那些浸泡在水中长达30个小时的资料而绞尽脑汁了。