摘要:提出了通信保障应急预案的场景概念,并通过分析严重影响通信系统的灾害性事件及其对通信系统的影响程度,归纳为不同的场景,再将各种可能的事件置于相应的场景中,提出了5大场景预案核心环节和灾后快速业务评估方法,为编制有针对性的、多专业立体联动的通信保障预案提供了有效方法奠定基础,使得预案更具有可操作性,有效降低了通信系统因火灾等严重灾害性事件中断或阻断的时长,从而可更有效保障国家和社会各项工作的顺利执行。
1 引言
我国是灾害频发、灾害面广、灾害损失严重的国家,自2001年美国纽约“911”恐怖袭击,2006年台南地震,2008年中国南方冰灾、汶川特大地震,2009年“莫拉克”风暴及殃及全球多个国家的“非典”、甲型H1N1流感等一系列严重事件之后,我国对建立社会公共安全体系的重视程度大大提高,国家已经把社会公共安全应对体系作为事关国家安危的重要课题来抓。通信行业作为国民经济中举足轻重的基础行业,直接影响到国家各项工作的顺利部署与开展,且通信(如电话,短信,邮件,QQ,MSN等)已成为人们日常沟通中最为常用的手段之一,与日常生活息息相关。因此基础通信网的通信保障是国家突发事件应急管理体系的一个有机组成部分,也是国家突发事件应急保障的关键环节。
目前,电信行业作为通信运营的主体,一般采用分专业分网络管理,因此在编制具体应急预案时,一般采用分专业分网络制定应急预案,以指导在故障或灾害发生时本专业网络的通信保障实施。这种传统应急预案,对于应对只影响单专业的突发灾害事件是必要的,也是有效的,比如单条国际、国内光缆中断,单个国际、国内传输节点中断和单个交换、数据、移动等节点中断等单专业故障。但在现实情况下,一个突发灾害事件,比如事故灾难(枢纽楼火灾、洪水、地震、地陷等)、公共卫生事件、社会安全事件、突发话务高峰等,同时对多个专业的网络同时造成重大影响。对于如何协同应对多专业重大故障,如何分工协调,能恢复多少业务,需要多少资源等系列问题,传统应急预案都难以解决。只有将突发事件置于具体的场景中,评估网络与业务受损情况,事先讨论制定可操作的流程,一旦假设场景类的突发事件发生后,电信运营商各责任主体才清楚如何分工、协同应急处置,从而有效地应对各种各样的突发事件,大大降低网络、业务和客户在突发灾害事件发生后的损失。
2 场景概念
在探讨通信保障应急预案之前,首先明确一些相关的基本概念(见图1)。
图1 通信保障应急预案中场景的概念
(1)应急:应急是一种要求立即采取行动(超出了一般工作程序范围)的状态,以避免事故的发生或减轻事故的后果。应急可以定义为启动应急响应计划的任何状态。
(2)预案:为进行危机管理提前制定的操作计划。
(3)应急通信保障:当通信网设施遭受破坏、性能降级、异常高话务量或特殊通信保障任务情况下,使用应急通信方式恢复国际、国家、地区或本地的通信能力。
(4)场景:这里的场景为对通讯系统正常通讯造成中断的重大事件或重要活动,每一个事件的描述必然包括时间/时期t,地点l,事件类型/原因r,损失或破坏d。四个维度不同数值的组合就构成了研究的特定场景,用Ci表示第i个场景(i=1,2,……,m),Ci=f(t,l,r,d)。这里的一个场景就对应一个突发事件和重要活动。
2008北京奥运会信息系统就选取了500个场景,并针对性地进行了模拟演练,比如硬件故障、软件错误、体育项目变更、用户投诉、人员问题、安全攻击、网络中断、停电等等。对于电信运营商,网络覆盖范围广、承载关联错综复杂,承载的业务颗粒度、业务类型、客户重要性等差异性大,因此涉及的场景远比一个重大活动的信息系统要复杂得多。
3 场景选择方法
某一区域为了更好地应对某一类型的突发事件,有必要选择出具有代表性的场景来编制预案,由于场景具有多维度的问题,不可能把所有场景全部遍历,只能选择一些小概率中的大概率事件为代表。为了选择出具有代表性的场景,用场景差异度来衡量场景间的差异大小,对于差异度在一定范围内的场景,可以选择其中一个或几个来代表其他场景。场景的差异度对于不同运营模式单位有所不同,可结合本单位网络与运维模式的特点,根据场景的发生概率、原因、时间、地域以及破坏程度等,选取一些典型的场景。
通过分析严重影响通信系统的灾害性事件及其对通信系统的影响程度,归纳为不同的场景。为了编制实用的应急预案,建议选取影响重大、涉及多专业的场景为案例编制应急预案,比如枢纽楼失效场景、区域性灾害场景等等。对于这些需要多个专业联动、复杂且影响面大的场景都可从容应对,对于其他影响小或涉及专业少的相似突发事件也可以可迎刃而解。
4 场景预案核心环节
在面向场景的应急指挥和预案编制过程中,最为关键的是处理好需要哪些应急人员(Who)、哪些物资(What,内部和外部)、采取何种应急手段(How)、如何上报与发布信息(Information Release)等方面的关系,这些构成了重大场景下应急保障措施的重要环节(见图2)。
图2 场景应急预案的五大应急通信核心环节
下面探讨在应急指挥或预案编制过程中各环节应该着重考虑的主要方面。
4.1 应急团队
(1)明确向上汇报流程:包括向地市、省公司、集团公司相关领导汇报,向相关主管政府部门汇报等。
(2)评估受损业务:根据受损的系统,评估受损业务及其影响面。
(3)制定联动应急恢复优选方案,并明确在预案实施过程中应注意的事项,以便参照实施。
(4)明确应急建设的原则,即根据应急需要及其评估结果,应急建设相关光缆线路并应急购买设备。
4.2 内部资源需求
(1)明确假设场景下需要向政府等有关部门申请的资源,如根据地理条件和现有资源,确定是否需要申请空闲地方做临时机房等。
(2)明确假设场景下人力资源需求,包括业务调度和应急建设等人力资源。(3)明确假设场景下物资资源需求:包括应急调度所需的光缆建设和设备调配或购买,其中设备部分需要明确系统设备厂家、设备数量、板卡类型数量、软件版本,以及所需光缆类型等。
(3)梳理假定场景下可能影响到的重要大客户和公众客户电路资料。
(4)明确假定场景下应急抢修所需支撑物资(如食品、饮用水、车辆),以及相关安全措施。
4.3 外部资源需求
(1)明确假定场景下需要的支撑单位以及要求(如相关设备厂家立即到现场进行支撑),并提供应急建设的相关设备。
(2)明确假定场景下要求抢修所需的工程建设人员到位的时限。
(3)明确假定场景下需要向政府申请的资源清单,如有必要向公安消防等相关政府部门申请配合应急抢修等。
4.4 信息发布
(1)根据主管政府部门最新要求和企业规范,明确假定场景下汇报抢修进度的时限和内容要求,为了避免引起不必要的问题,必须统一口径。
(2)根据集团和政府相关部门的要求,明确假定场景下需要提供相关信息。
(3)明确假定场景下给领导汇报流程,即应急抢修负责人员定期通过电话、邮件等多种方式向集团相关领导汇报抢修情况。
(4)明确假定场景下由集团统一对媒体发布灾难性破坏的相关信息。
4.5 客户关系
(1)明确要求假定场景下受损系统的前端大客户经理通报业务受损情况。
(2)明确在预案实施期间由专人负责反馈大客户故障申告单。
(3)针对公众电话受损客户,由于申告量多,由客服人员按照统一口径直接回复。
(4)如果灾情严重,周边电话很难在短时间内修复,应为公众客户提供免费的爱心电话。
(5)由于网络原因,导致部分用户造成一些损失,并带来一定的不方便性,适当减免部分话费,加强人文关怀。
如果上述5大核心环节在编制场景预案时都已经明确了,灾后应急响应时就可有条不紊地实施,保证应急处置时临危不乱、决策有据、指挥有力、反应快速,有效提高了应急效率,减少网络和业务受损。
5 重大场景下业务评估方法
当发生突发事件场景后,快速评估本次突发事件对网络和业务的影响及影响范围是应急调度与指挥的重要基础。如果无法快速、准确给出受损状况,就无法掌握应急所需的资源以及应急实施后的预期效果,因而,应急是盲目的。为此,本文进一步对重大场景下业务评估的方法与模型进行了研究,并提出基于网络承载关系的灾后业务快速评估方法。
根据电信网的现状,本文提出网络与业务承载关系(见图3)。各层级的评估方法如下:
图3 电信运营企业业务与网络承载关系图
(1)设施层:包括机房、设备、板卡、管道及电源配套等。
火灾等灾害一般直接破坏设施层的物理设备,设施层的影响容易评估,比如枢纽楼火灾,受损对象就是枢纽楼内的设备(传输、交换、数据、移动等)和进出管道。
(2)线路层:包括光缆、通信电缆。
光缆是通信的主要媒介,承载大量的通信业务,而电缆主要承载接入业务。在假定场景下,线路层的影响容易评估,比如枢纽楼火灾,受损对象就是在枢纽楼落地或过路的光缆、通信电缆。
(3)承载层:包括传输承载系统和数据承载系统。
传输以DWDM和SDH为主,数据以ATM,精品数据网,普通互联网为主。在本层中,承载关系复杂,起了承上启下的关键作用。在假定场景下,承载层的影响很难评估,假如枢纽楼火灾,受损对象不仅是在枢纽楼落地的系统,还包括大量承载在受损线路或系统的系统。比如判断某一中继电路是否受损,首先看其设备端口是否受损,然后看承载该电路的SDH系统各段是否受损(还需考虑是否带保护,保护是否有效),承载上述SDH系统的DWDM系统各段是否受损(如果该SDH系统承载在DWDM系统中),最后看承载上述SDH系统或DWDM系统的光缆各段是否受损。为了保证分析的准确性和提高效率,需根据承载关系从下往上进行逐层分析,即分受损光缆承载的DWDM系统,受损DWDM系统承载的SDH和数据网中继,SDH系统承载的ATM中继。
(4)业务层:包括承载业务的专业网络或中继电路。
根据业务覆盖范围和容灾备份情况进行评估,比如枢纽楼火灾,受损对象就是在某个区域某一业务的受损范围和程度,依赖于承载该业务的中继电路受损比例和容灾能力。
基于上述方法,可分析出网络与业务的具体损失,再根据业务的覆盖范围、业务类型、客户类型等多维度进行归纳分析,从而提炼结论,供应急调度与指挥参考。
本文提出的基于网络承载关系的灾后业务快速评估方法分析,准确地梳理业务的承载关系,再根据业务的重要性,自上而下分析得出该场景下各个承载系统、光缆的重要性,并以业务保障优先为原则,提出切实可行快速应急恢复方案。面对重大灾害时,电信运营商可做到心中有数、遇事不慌、有条不紊、快速应急,为有效缩短应急响应时间、降低各类灾害对中国电信网络与业务的负面影响奠定基础,从而可更有效保障国家和社会各项工作的顺利执行。
6 结束语
本文提出的场景模式编制应急预案,可协同应对复杂的多专业重大故障,使多专业可分工协调、统一规划,避免各专业不应急、不同步。只有将突发事件置于具体的场景中,编制出来的应急预案才具有可操作性,当灾难事件发生后,参照相似场景预案实施,有效提高了应急响应的效率,从而大大降低网络、业务和客户的损失,也为国家应对突发灾害事件提供了有力的通讯保障。