摘要:短信业务质量问题是用户经常投诉的问题,如何准确分析定位短信业务问题是运营商网管维护部门非常关心的问题,本文给出了短信重发问题的分析定位过程,以及具体的解决方案。吉林移动的信令监测系统由北京中创信侧科技股份有限公司全面建设维护,本文详细说明了监测系统的应用分析过程及解决过程。
1 短信业务故障描述
对于短信业务存在如下问题:
(1)用户发送短信不成功,导致短信重发多次。
(2)用户发送短信后,出现重复计费问题。
(3)用户发送一条短信,接收方却收到多次。
(4)短信发送接收时延太大,导致用户抱怨。
本文对吉林移动在除夕当晚20:00左右,交换机网管系统发现部分用户发送一条短信,但提交多条情况,存在对用户发送短信重复计费故障现象进行分析。由于短信业务流量急增,引发阿尔卡特HSTP2局和LSTP2局之间信令链路负荷过高,导致信令链路翻转故障,已严重影响网络运营质量。由于信令翻转过程中,丢失部分信令,导致短信重发现象。以下详细说明通过交换机网管和信令监测系统对该故障的跟踪分析过程。
吉林移动的信令监测系统由北京中创信测科技股份有限公司多年集中监测建设并维护,本文详细说明信令监测系统的数据分析判断操作应用过程。
2 短信重发问题分析
2.1 短信中心局数据改进
针对短信中心下发短信机制,完善中兴短信中心MSCID数据并核对业务负荷分担机制;同时更改诺西短信中心短信下发机制:由号段作为发往LSTP局或HSTP局路由寻址的依据,改为号段结合MSCID做为下发消息路由寻址方式,此举可有效解决短信大业务量情况下,HSTP局和LSTP局资源不足问题,同时协调诺西短信中心尽快完成HSU板(支持高速2M信令链路)的更换。目前已经完成了中兴短信中心的路由数据调整工作,已经将诺西短信中心1的消息下发路由数据按照省内送LSTP局,省际送HSTP局的原则设置完毕;在2月5日通过信令测试仪表跟踪的方式对中兴短信中心和诺西短信中心的路由数据进行验证工作,目前路由数据已经完全正确。诺西短信中心2将在硬件到货后进行路由数据的设置工作并继续进行挂表验证工作。
2.2 对于短信一条多发情况分析
(1)移动用户始发短消息流程(MO)
从图1短消息MO流程可以看出短消息发送到短信中心后,短信中心需回送短消息证实消息。同时在A接口存在对应发送短信过程。
图1 移动用户始发短消息流程
(2)短信重发MAP短信业务记录分析
在吉林移动网站上随机找到一组存在一条多发短信的记录,同时重发短信按多条计费的情况(见图2)。
图2 短信重发MAP短信业务记录分析
在中创信令集中监测系统中,通过“MAP短信记录”查询MSC/SS端局到LSTP局的MAP信令中找到关联的3条短信消息记录,短信记录中发送号码为:1375630XXXX,短信接收号码为:1381162XXXX
从图3短信消息记录列表中可以看出20:28和20:31这两条消息是“未完”状态,20:33分则是“完成”状态。分别关联提取“未完”状态和“完成”状态的信令过程消息,并进行对比。
图3 短消息记录列表
●图4为“未完”状态的信令流程,从信令中可以看出信令消息送往GT为8613800431500的短信中心,但此短信中心未回复证实消息。因此只有TC_BEGIN事务处理开始的记录,没有返回TC_END事务处理结束的证实消息。所以记录显示“未完”的过程结果。
图4 “未完”状态的信令流程
●图5为“完成”状态的信令流程,从信令过程时序图中可以看出信令消息同样送往GT为8613800431500的短信中心,但此次收到了短信回复证实消息,该消息包含在TC_END中,因此是完整的TC事务处理过程。
图5 “完成”状态的信令流程
由于短信中心未回复证实消息,最终导致MSC/SS端局等待短消息中心回复定时器超时,向手机下发失败,部分手机在发送失败后会重新发送该条短信,直到发送成功。
(3)短信重发A接口短信记录分析
●短信中心未回复证实消息的A口短信发送信令流程(见图6)
图6 短信中心未回复证实消息的A口短信发送信令流程
图6中“RP_ERROR”即说明RP_DATA发送后没有收到RP_ACK消息,说明短信发送失败,失败原因是“网络故障”。因此通过A接口也能定位用户发送失败的原因,但需要结合核心网MAP短信业务记录,可准确定位是MSC/SS端局没有发送短信,还是发送后没有收到SMC的证实消息。因此对于监测全面的端局,通过信令监测系统数据记录分析,可以快速定位故障发生的根源。
●短信中心回复证实消息的A口信令流程(见图7)
图7 短信中心回复证实消息的A口信令流程
以上是短信成功发送的过程,包含CP_DATA和CP_ACK各两条,分别是CP_DATA中包含RP_DATA和RP_ACK消息,与MAP过程相似。CP为Control Protocol控制协议层,即A接口传输控制,如果出现CP_ERROR则说明在A接口传输控制存在问题,例如无线接口故障或无线接口消息故障。
通过A接口记录与MAP记录的结合分析,可以定位短信发送失败是由于无线接口故障还是核心网传输故障。通过失败原因的分析,结合用户投诉,可以很快排除网络运行故障。
3 初步结论:
(1)经过理论分析,由于诺西短信中心采用号段作为发往LSTP局或HSTP局路由寻址的依据,而不是采用号段和MISCID结合的方式,致使短信中心给主叫用户下发的应答消息送到了HSTP2局—LSTP2局—端局,由于当晚HSTP2局到LSTP2局从16:48到23:59信令链路一直发生翻转,导致部分应答消息丢失,端局未收到短信证实消息超时失败,导致部分手机重新发送短信,造成短信一条多发情况,重复计费。
(2)交换与数据共同分析了诺西短信中心设备局数据结构,认为现有路由数据结构可以优化,原则是省内数据及MSCID指向LSTP,省际大匹配数据指向HSTP,所有数据指向信令汇接局HSTP/LSTP需要按照负荷分担方式处理,数据支援室下一步会制定计划整改。
4 应用维护总结
对于网络故障可通过交换机网管系统和信令监测系统综合分析;信令监测系统可分析网络故障给用户带来的直接影响,可分析到最直接的信令消息记录;特别是在网络传输备份的前提下,往往导致部分记录出现失败部分成功,这更要求我们对于网络故障及时发现和排查,避免造成全局瘫痪的重大故障。