胡启明
当程控交换机正常开通使用后,处于维护运行阶段时,经常因程序运行错误而发生故障,这就需要维护人员及时处理这类故障,确保通信畅通。所谓处理故障,也可以理解为将软件控制程序置于正常工作状态的过程。当程控交换机软件程序出现错误或混乱时,作为维护人员没有时间也没有必要去研究其软件程序本身的工作原理,只要尽快进行故障排除并及时抢通电话即可。而使用重新启动的方法快速排除程序故障已经成为维护人员的一种“灵丹妙药”。这有点类似于我们在操作电脑时,当由于电脑程序错误而出现“死”机现象时,无论在键盘键入什么指令电脑都无反映,此时,最快的恢复方法莫过于对电脑进行“热”启动或“冷”启动。同样,程控交换机由于处理其程序故障的需要,也可以使用重新启动的方法。
对于不同制式不同型号的程控交换机来说,其程序重新启动的操作方式与命令参数可能有所不同,但重新启动的功能与种类大致相同,无非是利用命令重新启动软件程序或者是操作硬件纽重新启动。下面以MD110程控交换机为例,说明如何进行程控交换机的重新启动方法。
1 利用命令操作RF系列命令组的方法重新启动交换机
在MD110程控交换机系统产生软件故障时,如应用软件程序进行不下去(主要表现为电话打不出去或打不进来)或进入循环状态后,我们可以使用RF系列重新启动命令,进行软件程序故障处理。这样,不论原来的应用程序走到什么地方,也不管这时的程序是由中央软件控制还是由区域软件控制,只要使用了RF系列重新启动命令组,则控制程控交换机工作的软件程序一律要转到开始位置并从头开始运行。如果该软件故障是由于某些临时性的因素(例如一个短暂的干扰脉冲或某些短暂性的奇偶校验码等等)造成的,那么当程序重新运行到原来的故障点时,由于此时引起原故障的因素已不复存在,软件程序便能正常进行下去,系统便又恢复正常。当然,在实际工作中,软件程序运行故障的原因是多种多样的,其故障过程的产生和故障现象也是很复杂的,但使用RF系列命令组快速排除故障已经成为维护人员的一种非常有效实用的方法。
RF系列重新启动命令组在交换机的维护工作中经常用到,下面谈谈它的分类与使用。
(1) RF系列命令组的分类
MD110型程控电话交换机系统中的RF系列命令组主要分为4个等级。第一级RFPUI为软件程序单元的重新启动;第二级RFBOI为某个电路板的重新启动;第三级RFLII为线路接口模块LIM重新启动;第四级RFEXI为交换机系统全局重新启动。
在维护交换机的实际工作中,假如产生了某种软件故障(如程序出错、数据出错)等问题,系统程序便难以继续进行工作,通常会有用户申告或是交换机的告警系统自动显示告警信息记录。维护人员根据告警信息的性质含义和对故障处理方法的提示,可以灵活地应用RF系列命令组,及时排除故障。
一般情况下,使用第一级和第二级重新启动命令,即程序不论运行到什么程序段,都一律要从起始点开始运行,如果所遇到的软件故障是暂性的,则在多数情况下故障都可以很快得到排除,问题马上获得解决。
使用RF系列重新启动命令的原则是从低级向高级发展。能用低级重新启动命令排除的故障就不要用上一级的重新启动命令,因为,越是高一级的重新启动命令它对系统的通信阻断作用也要相对大一些。当低级重新启动命令使用后,不能解决问题,故障依然存在时,应逐级使用上一级重新启动命令,直到故障最后排除。
例如:114查号台的总机用户反映呼叫灯总闪烁,但实际并无用户呼叫;交换机的告警记录中有287号告警反复出现。经过查询287号告警的含义是占用PCM链路失败的次数已经超过预先定义的拥塞值,而管理PCM链路功能的程序单元UNIT是GSP,因此处理这种故障的方法是只要重新启动一下程序单元GSP即可。具体操作如下:
RFPUI:LIM=7(即告警信息所提示的LIM序号),UNIT=GSP;〈CR〉
结果:故障排除。
综上所述,MD110交换机的RF重新启动命令可以大体上分别针对程序单元、电路板、线路接口模块LIM和交换机全局4个方面的对象进行作用。当然,不同类型的程控交换机在软件设计和命令格式上是不同的,它们所设计的交换机系统的重新启动命令在安排上也必然会有差异,但是其基本结构和分类层次上应该是大同小异的。
(2) RF系列命令组的危险性
通常,使用RF系列命令组也会对交换机系统产生如下一些危害:
软件程序单元的重新启动命令RFPUI和电路板的重新启动命令RFBOI的执行时间为3min左右,对已经进入通话状态的所有用户不产生任何影响,只对正处于呼叫过程的用户产生阻断后果,其历时约为3s左右。
线路接口模块LIM重新启动命令RFLII的执行时间为4min左右,它对该LIM已经进入通话状态的所有用户不产生任何影响,只对正处于呼叫过程的用户产生阻断后果,其历时约为3s左右。
交换机系统全局重新启动RFEXI命令的执行时间为5min左右,它对正在进行呼叫的用户和已经处于通话状态的用户都将产生阻断后果,阻断时间约5s左右。
(3) 程控交换机中RF重新启动命令组所能解决的故障类型
重新启动命令所能解决的故障类型大致上可以归纳为以下3个方面:一是由于交换机出现某些干扰后软件运行故障;二是在交换机系统进入维护应用阶段,由于维护操作人员维护水平存在问题或由于用户的某些误操作造成的故障;三是环境因素对交换机的影响。下面列举一些重新启动命令所能解决的故障现象,供参考。
① 由于交换机出现某些干扰后软件程序运行产生的故障。
② 人工输入了某些错误的命令或错误的数据后引起的设备故障。
③ 出现不合理的过高的中央处理机负荷。
④ 出现过高的环境温度或过高的相对湿度。
⑤ 有关用户服务功能的错误操作。
⑥ 寻址误差故障。例如欲寻的地址编号大于实际上的地址编号范围。
⑦ 软件信号数码出错。
⑧ 外界干扰信号或I/O设备的“读”或“写”功能发生问题而导致数据出错。
⑨ 数据在总线上传送时产生错误而未被系统校验出来。
⑩ 缓冲寄存器发生拥塞现象。
PABX容量不够。
过高的话务负荷或暂时的高话务量。
通过人机对话打入的功能块、软件信号、地址区等,而实际上并无此内容。
空闲状态没有检测到电流。
接收没有占用的证实信号或接收没有清除的证实信号等。
(4) 如何正确使用RF重新启动命令组
为了保证交换机系统的通信安全,防止误操作对交换机系统的影响,尽量减轻RF重启命令对通信造成的阻断影响,在重新启动命令组的使用级别上应加以限制。处理重大故障应由本单位的主管工程师或技术骨干组织实施。同时要求能作好以下几方面工作:
① 加强对程控电话交换机用户正确使用电话(尤其是具有新服务功能的电话)必要常识的宣传,减少人为故障产生。
② 加强对交换机维护人员的技术培训工作。
③ 要使维护人员能及时掌握用户设备及全网局间中继设备的变化或数据的变化,并对有关数据作出及时、相应的修改。
④ 切实作好系统的软件维护工作,如坚持作好后援信息的转储工作等。
⑤ 使用重新启动命令时一定要慎重,最好在话务量较低的时间(例如在中午或深夜)进行。
2 按动硬件按纽物理重新启动程控交换机
在处理MD110程控交换机故障时,在使用命令操作RF系列命令组重新启动交换机的方法不能解决问题的情况下,可以考虑使用按动硬件按纽物理重新启动程控交换机。方法如下:
在话务量较低的夜间,将装有IOU板的LIM中的LPU板上的黑色按纽按两下(按一下,只启动IOU板),使该LIM的中央处理机重新初始化,程控交换机全局重新启动并重新装载全部数据,它会影响全局通信。
使用按动硬件按纽物理重新启动程控交换机,它将所有的控制程序与全部备用数据又重新装载了,那么它将同时清除掉数据存储器内的原有信息。这种由于后援信息再装入所产生的对通信影响的不良后果将比上述使用RF系列命令组重新启动交换机的方法后果更严重,其影响通信的时间视存储介质(如磁带机、硬盘等)的类型及后援信息内容的多少而定。一般每个LIM需5min左右,影响整个交换机系统通信的时间为所配置的LIM总数乘以5左右,即N×5,N为交换机系统配置的LIM总数。
正因为交换机系统全局重新启动并重新装载所有后援信息的过程对通信的质量影响较大,所以,也可以把它执行的次数作为衡量程控电话交换机系统设计质量优劣与产品工艺好坏或维护水平高低的一种标准。
根据我们的工作实践来看,在程控交换机容量小于1000门时,如国产的HJD-80型程控交换机、HJD-256型程控交换机、TGJ-439型程控交换机等等,因其命令集内容少,同时,全局重新初始化并装载数据的时间较短,一般对用户通信影响不大,所以可以经常用按动主机板CPU上的硬件按纽物理重新启动程控交换机的方法来排除故障;但当程控交换机容量大于1000门时,如MD110程控交换机、AXE-10程控交换机等,因将所有的控制程序与全部备用数据重新启动再重新装载的时间较长,影响通信的时间较长,所以一般不使用按动硬件按纽物理重新启动程控交换机的方法,应尽量使用命令操作的方法重新启动程控交换机。