赵艳明 全子一
(北京邮电大学电信工程学院 北京100876)
摘 要 可视电话是多媒体通信的一个重要应用。本文介绍了可视电话的关键技术,相应标准的发展历程,并探讨了今后的发展方向。
关键词 可视电话 H.320 H.323 H.324
一、引言
电话作为人们日常生活、工作中不可缺少的通信工具,以其方便、快捷等特点被广泛应用,但普通电话机只能提供语音通信服务。可视电话使人们在通话时不仅能够听到对方的声音,而且还能够看到对方的图像。它不仅适用于家庭生活,而且还可以广泛应用于各项商务活动、远程教学、保密监控、医院护理、医疗诊断、科学考察等不同行业的多种领域,因而有着广阔的市场前景。
1964年,美国贝尔实验室提出了第一个可视电话解决方案。但是由于受各种技术条件的限制,可视电话一直没有取得实质性进展。八十年代末,随着通信、计算机、语音和视频编解码技术的不断发展,可视电话在世界各国得到了迅速发展。为了实现互联互通,以推动可视电话和视频会议系统的发展,国际电信联盟(ITU-T)于九十年代推出了包括H.310、H.320、H.321、H.322、H.323和H.324的系列多媒体通信标准。
在上述标准中,以H.320、H.324和H.323应用最为广泛。近年来,由于IP网的迅猛发展,基于H.323的可视电话终端和会议电视系统逐渐占据了主导地位,各大厂商纷纷推出基于H.323的应用。值得注意的是,基于会话发起协议(SIP)的可视电话也开始出现。
本文在对上述多媒体框架协议分析的基础上,给出了一种基于媒体处理器TM1300的软硬件解决方案。该方案的大部分模块对H.320、H.323和H.324系统是通用的。硬件方面只要修改一下网络接口的设计,软件方面采用相应的控制协议,就可以得到针对H.320、H.323和H.324系统的不同的解决方案。
二、可视电话的基本结构和核心技术
1. 可视电话的基本结构
ITU-T推出的H.32X系列标准是框架性协议,服从不同标准的可视电话终端,具有类似的结构。可视电话的基本结构包括视频输入/输出单元、视频编解码器、语音输入/输出单元、语音编解码器、延时单元、数据处理单元(可选)、系统控制单元、多媒体数据复用/解复用单元和网络接口单元。不同的标准适用的网络不同,因此有不同的通信控制协议、多媒体数据打包协议和不同的网络接口单元,但是视频和语音输入/输出单元、视频编解码器、语音编解码器相似。
语音和视频压缩技术是可视电话的核心技术。可视电话作为一种消费产品,要想走入寻常百姓家,必须能够提供足够好的语音和视频质量,同时占用的信道带宽要尽量小。语音编码技术和视频编码技术的发展就是围绕着上述两点展开的:在保证压缩后语音和图象质量的同时,尽量提高压缩效率。我们在具体选用语音和视频压缩标准的时候,也要结合这两点来选择。
2. 语音编码技术
语音通信是可视电话最基本的功能。受网络条件的限制,可视电话通常工作在较低码率下。为了适应这种低码率语音应用,ITU-T推出了G.72X系列语音压缩标准。其中G.723.1、G.728、G.729和G.729A,在可视电话中得到了广泛应用。表1列出了各个语音标准所采用的技术、码率、时延和语音质量等。
G.723.1能够产生两种速率的码流,高速率编码器使用多脉冲最大自然量化(MP-MLQ)算法,低速率编码器使用代数码激励线性预测(ACELP)算法。G.729A是G.729的简化版本,G.729A算法复杂度与G.729相比降低了50%,语音质量略有降低,两种标准编码后的码流可互相解码。当可视电话与普通电话通信时,采用G.711标准。G.711为PCM编码,只对语音信号进行采样和量化,产生64kbit/s的码流。G.711编码后的语音质量高,缺点是占用的带宽也很高。在实际选择语音压缩标准时,要综合考虑带宽、时延、算法复杂度等各种因素。
3. 视频编码技术
视频压缩是多媒体应用中的核心技术,ITU-T推出的低码率视频压缩标准对推动可视电话的发展和实用化起到了重要的促进作用。H.261是ITU-T推出的第一个低码率视频压缩标准,码率为p×64kbit/s,其中p=1~30,图像格式为CIF和QCIF。H.261压缩编码算法的基本思想是利用预测编码减少时间冗余度,利用变换编码减少空间冗余度。算法主要由运动估计、运动补偿、DCT变换、量化和霍夫曼编码构成。每帧图像分成图像层、宏块组(GOB)层、宏块(MB)层、块(Block)层共4个层次来处理,分为I帧和P帧。后来推出的H.263、H.264标准继承了H.261的基本思想,在H.261的基础上提出了一些改进。
与H.261相比,H.263在以下几个方面做出了改进:更多的图像格式、半像素运动估计、不同的GOB结构、四个可选模式、减少的头信息开销、采用不同的VLC表等。在相同的图像质量下,因为H.263在运动估计及编码方面的改进,H.263编码后的码率大约比H.261低30%。为进一步提高H.263的编码效率和抗误码性能,ITU-T在H.263的基础上,增加了一些选项,修改后的版本被称之为H.263+、H.263++。目前,H.263是可视电话中应用的最广泛的视频压缩标准。
2003年,ITU-T通过了一个新的视频编码标准,即H.264标准。H.264与H.263相比具有灵活的宏块和块的分割方式,运动估计精度进一步提高,可采用1/4或1/8像素精度的运动估计。H.261和H.263采用的是DCT变换,而H.264采用的是类似于DCT的整数变换。在相同的重建图像质量下,H.264编码后的码率比H.263低50%。H.264在提高编码效率的同时,计算复杂度也大大增加。据估计,编码的计算复杂度大约相当于H.263的三倍,解码复杂度大约相当于H.263的两倍。随着DSP芯片处理能力的进一步提高,H.264在可视电话等多媒体通信中必将得到越来越广泛的应用。
4. 通信协议
ITU-T推出的H.32X系列标准,具有相同的系统框架。不同之处在于面向的网络不同,因此具有不同的网络接口,不同的信令过程,以及为适应不同的网络而优化设计的包结构,具体各部分的标准如表2所示。复用协议规定了视频数据、语音数据等的打包标准,而控制协议的作用是在终端之间协商通信方式,如视频编码标准的协商,语音编码标准的协商,信道带宽的协商等。
三、一种基于媒体处理器TM1300的单机解决方案
目前流行的可视电话终端包括单机型终端和基于PC机的终端。基于PC机的可视电话解决方案,利用PC机已有的软、硬件资源(处理能力、网卡、话筒、耳机和显示器等),另外再为PC机配置一个摄像头和一套可视电话软件,就可以实现可视通信。单机型可视电话与普通电话,从外观到使用方法基本相同,对用户的要求较低,而且计费简单。因此,目前运营商在推广可视电话业务时推出的都是单机型可视电话终端。单机型可视电话又分为基于专用芯片的解决方案和基于通用DSP芯片的解决方案。采用专用芯片可以大大减少软件的工作量,加快开发进度,但是成本也大幅度增加,而且设计方案不灵活,不便于继承应用。
这里以H.320可视电话终端为例,给出一种基于通用DSP芯片的解决方案。本方案的硬件平台以Philips公司的TM1300芯片为中心处理芯片,通过芯片上的专用接口与其它外围电路相连。其中PEB2163,SAA7111和SAA7125为语音和图像的A/D,D/A芯片,通过单片机AT89C51进行配置。单片机AT89C51、FLASH、CPLD和网络接口芯片PEB2086则是通过通用PCI/XIO总线与TM1300 DSP CPU相连。
TM1300是一种专门为高性能多媒体应用而设计的微处理器。该芯片有一个超长指令字(VLIW)结构的CPU,在一个指令周期内能同时执行5个操作。另外,TM1300的指令集中还包括许多高效的多媒体类操作。利用这些多媒体类操作,可以大大提高图象和声音的压缩和解压缩算法的处理速度。该芯片还包括大量的片上外围芯片,如视频输入单元,视频输出单元,音频输入单元,音频输出单元,SSI接口,PCI接口,主存接口以及定时器等。这种集成了多个片上外围的单片化的微处理器,大大降低了硬件电路板的体积,同时还降低了功耗和开发成本,提高了可靠性。
可视电话的软件部分可以分为四个功能相对独立的模块:图象编解码,声音编解码,用户-网络接口协议,复接解复接和端到端的呼叫控制。
在上述四个模块中,图象编解码和声音编解码部分运算量很大,要实现实时处理,必须对该部分的软件进行优化。端到端呼叫控制和复接解复接模块,以及用户-网络接口模块属于控制复杂型的功能块。这两个模块需要和其它模块进行较多较频繁的信息交互,而且对于响应时间也有较高要求。
TM1300微处理器上运行了一个小的实时操作系统内核pSOS+,用于管理众多的软件模块,并为模块之间的同步提供手段。在可视电话软件中使用pSOS实时操作系统,使整个软件结构清晰,便于联调,而且开发出来的软件可靠性和稳定性较高。很多代码都可以重用。
我们已成功开发出基于上述方案的H.320可视电话终端。该终端通过了H.320标准的各项检测,并能够稳定地运行。在此基础上,修改网络接口硬件设计,把适用于N-ISDN的芯片PEB2086更换成适用于IP网络的以太网控制器,即可得到H.323可视电话终端硬件解决方案。
赵艳明,北京邮电大学博士研究生,主要研究方向:多媒体通信。
全子一,北京邮电大学教授,博士生导师。主要研究方向:图象压缩与图象处理、多媒体通信。