上海铁通公司 田文
在目前的通信运营网络中,SDH技术受到了广泛的应用。就铁通上海分公司目前大规模的城域传送网建设来看,四个跨区大环及其用于扩容功能的延伸环都采用华为公司的Metro3000和Metro1000设备,满足上海铁通公司的传输业务需求。
由于传输业务中断故障对电信运营商的影响是很大的,因此要求尽快地给予定位和排除。现结合铁通上海分公司使用的华为传输设备的故障判断处理情况进行阐述。
一﹑业务中断的原因
业务中断的可能原因是多方面的,如外部的供电电源故障、交换机故障、光纤电缆故障,人为的误操作、配置错误以及设备本身的故障等。设备问题引起的业务中断,有些可能是由于指针调整太大引起的,有些可能是误码过大引起的,保护倒换失效也会导致的业务中断。
二﹑处理业务中断故障的一般过程与方法
各种类型的业务中断故障,除瞬断问题处理比较特殊和复杂外,其它类型故障都可以按一般的业务中断故障的处理方法进行处理。对于业务瞬断问题,只能通过长期对全网告警、性能数据的仔细分析,通过对设备、单板运行状态的深入查询,并通过替换法等多种方法,逐一排除电源低压问题、光纤电缆问题、接地不良问题、单板软硬件稳定性等问题,最终将故障排除。
处理一般业务中断故障的过程和方法和非中断故障的处理方法相仿,处理原则为1.先外部,后内部,也就是先考虑传输设备以外的因素,比如光纤,电源等;2.先单站,后单板;3.先线路,后支路;4.先高阶,后低阶。
具体的处理过程和方法如下:
1.排除外部设备故障
先通过自环法、替换法、告警分析法等方法排除外部设备故障的可能性。
2.定位故障在单站
然后,在通过告警性能事件分析法一时无法确定故障点的情况下,应用逐段环回法迅速将故障定位到单站;故障定位到站点后,再利用状态、配置数据检查、分析法排除掉人为误操作、配置错误、设备状态异常等情况,最后通过更换单板、重下配置、更改配置、复位、掉电重启等方法将故障排除。
我们知道,通过逐站自环的方法,可以将故障定位到单站或两站之间的光板上。下面讲述的是通过自环法将故障定位到单站或两个站间的光板之后,如何再进一步排除业务中断故障。
3.故障定位到两站之间的光板后的业务中断故障处理
第一步:分析故障现象,并根据各种单板处理信号的特性,判断可能是哪个站的哪块板有问题。如,对于SS31T16板,该板一片芯片处理的是连续四个奇数或偶数个VC4通道信号;而SS31R16板一片芯片处理的是四个连续的VC4通道。若此时故障现象是四个连续的偶数个VC4通道有问题,则可以判断是T16的问题。
第二步:若通过分析法无法定位故障的单板,则只能带上备用光板,到现场通过对光口硬自环的方法判断出问题的光板了。
应该注意的是,对于复用段环,硬自环前,应首先锁定保护倒换或停止保护倒换协议。对于软内自环业务正常的光板,若再使用光纤硬自环(注意光功率不要过载),业务也正常,则可判断该板没有问题,问题出在对端光板。应到对端站点,换掉有问题的光板,排除故障;若再硬自环后,业务不通,则说明该板有问题,可通过更换该板排除故障。
4.故障定位到单站后的业务中断故障处理
a.若能通过告警性能事件分析法迅速定位出故障的单板,则通过更换单板排除故障。
b.若一时无法定位出故障位置,则按以下步骤进行。
第一步:检查有无误操作。如支路板、线路板通道有无软自环或硬自环的现象等。
第二步:检查一些基本配置是否正确。如对于通道环,应检查逻辑系统属性以及支路板通道属性配置是否正确;对于复用段,应检查逻辑系统属性以及节点参数配置是否正确;检查时隙配置、母板类型配置、业务装载配置是否正常等。这一步在改动了网元数据的场合尤为重要(比如升级扩容),因为我们经常发现由于命令行配置文件的小错误而导致业务中断。
第三步:检查系统自动生成的数据以及单板状态参数是否正确。如,对于通道环,检查交叉板备用总线生成的数据是否正确;对于复用段,检查各页面数据是否正确;检查单板的状态参数,如内、外定时、总线选择等参数是否正确。
第四步:若通过以上步骤都无法定位故障,则使用经验处理法,如重下配置、复位拔插单板、掉电重启等方法尝试能否排除故障。
第五步:若以上处理法都无效,则只能通过逐一更换单板的方法,排除故障。
三﹑传输网上常见的业务中断问题
1.配置没有下发到单板
a.对单板的autoload状态缺省为“enable”。如果设置为“disable”,重新下发配置也不能下发到单板;
b.如果设置为“disable”,网元掉电、单板复位可以正常开工,但是用网管更改配置(如时隙)却不能下发到单板。
查询配置是否正确下发到单板,可以用cfg-get-autoload查询,也可以使用“:cfg-check-board:板位,板类型;”命令。此命令是将单板侧bddb库中的内容和主机侧bsdb库中的内容相比较,如果一致则返回成功
2.OPtiX 设备处在保护倒换状态时不允许配置业务
交叉板在倒换时是不允许进行业务配置的。交叉在保护倒换时不允许配置业务,这是出于保护当前业务的目的,在交叉进入保护时,表明原有业务已经处于保护态了,这时还下发新的配置是不合理的。此时如果配置业务会导致:
a.下发了新的业务配置,主机校验后,向所有相关板发送新的配置,包括线路板、支路板、交叉板。线路和支路接受了新的配置,但交叉板不理睬,从而导致业务不通;
b.然后主机产生新的复用段的保护页面数据;
c.这时停止协议时,主机下发部分新的数据(交叉连接),业务还是不通的,因为交叉板的其他配置未下发。
d.因此这种情况下必须拔插或复位交叉板,修改的数据才能加载到单板。
3.删除逻辑系统导致业务中断
逻辑系统被删除后,其相应的业务也被删除。
这就要求进行网管操作的时候特别小心,考虑清楚以后再进行下一步的操作
四﹑保护倒换失效所导致的业务中断处理
1.通道环业务中断故障处理的基本思路和方法
在处理通道环的业务中断故障时,首先应检查一下逻辑系统的属性和支路板的通道保护属性这两项基本配置是否正确。逻辑系统属性配置为“通道保护环”,支路板通道属性配置为“保护”,如果这两个属性配置错误,业务倒换就无法实现。
在故障定位的时候,可以采用硬件和软件的方式强制支路板选取主环或备环的业务。硬件方式,一般我们将通道环改造成两条链来进行处理——东向一条链和西向一条链。方法比较简单,任意断掉一个站东向或西向一侧的收、发两根光纤即可。当然,若业务中断时,通道环已经是一个断环,则不需改造了。改造成链后,先排除一个方向主备通道的问题,再排除另一个方向主备通道的问题。软件方式,可以用命令强制支路板选取主环或备环业务,看是支路板的倒换有问题还是主备环业务路径的其他环节有问题。
当然,任何故障都一样,若能通过故障现象的简单分析就可以定位出故障的单板,则不需要上面繁琐的操作步骤了。
2.复用段环业务中断故障处理的基本思路和方法
查看APS协议是否正常
对于复用段保护倒换故障,首先要判断APS协议是否正常,判断的依据是APS参数、状态、事件和aps_fatal库的内容。若倒换协议异常,如协议不能正常启停、保护倒换不动作或部分站点倒换状态不对、交叉板页面切换错误等,则首先要排除协议问题,然后再排除设备存在的其它问题。
排除协议问题后的处理
如果已经排除了协议异常的问题,则此时的业务中断有两种情况:一种是全网保护倒换处于正常状态,保护倒换还没有动作;还有一种情况是保护倒换已经正常动作。