基于MPEG-4的视频监控应用系统的软件实现[图]-通信界-中国通信门户

您现在的位置：通信界 >> 视频通信 >> 技术正文

基于MPEG-4的视频监控应用系统的软件实现[图]

[ 通信界 / 佚名 / www.cntxj.net / 2012/7/5 21:26:18 ]

1 引言

目前，用于数字视频监控的图像压缩标准主要是H.261 和MPEG-1，他们在实际应用中有一定的局限性。第一，他们的适应性差，不能根据网络情况自适应的调节传输率，使得网络发生拥塞时性能急剧下降；第二，他们不具备较强的用户交互性。MPEG-4 能弥补以上不足，还具有在监控应用中的独特优势：由于压缩比是同质量的MPEG-1 的十倍多,所以可大大节约存储空间和网络带宽；错误恢复能力强：当网络传输有误码或丢包现象时，MPEG4 受的影响很小并且能够迅速恢复；图像质量高：可以达到接近DVD 的效果。

2 设计思路

根据视频监控的图像特点及其实时性要求，考虑到实际中网络的不稳定性，进行了编码软件的设计。视频监控的原始图像有一个显著的特点，即有大量的背景对象是静止不动的或极少运动的。MPEG-4 最基本的思想是基于对象的编码，编解码的基本单元是对象。所以可以把图像分割为运动物体对象和背景对象。背景对象采用压缩比较高、损失较大的方法进行编码，运动物体对象采用压缩比较低、损失较小的方法编码。基于此，我们采用MPEG-4 中Sprite 编码的思想来对背景对象编码。这是软件实现的一个重点所在。针对视频监控的实时性要求，算法的设计与选择上，除尽可能提高压缩比外，还要考虑到算法的复杂性，使其尽量满足实时性要求。这一思想贯穿于编码的整个过程，具体的，如VOP 的定义与生成，Sprite 编码等。另外考虑到网络的不稳定性，采用了MPEG-4 的可分级编码思想。

3 MPEG-4 的软件实现过程

现在，基于MPEG-4 标准的应用大多为硬件方案，采用专门的MPEG-4 编码芯片，难以实现升级，灵活性也较差，而本文中使用软件方案，可按实际应用要求进行编码，易于以后的升级，具有很好的灵活性。本文中，实现的是自然视频编码，不涉及音频编码。软件设计的总体步骤是首先利用图像分割技术生VOP，接下来是Sprite 生成，最后是对各VOP 的编码。软件实现流程如图1 所示。下面对其中的关键技术作介绍，重点是以前的标准中所没有的：视频对象平面VOP(video object plane)的定义与生成，Sprite 生成与编码，形状、运动、纹理编码，可扩展编码。MPEG-4 中，VOP 分四种，I-VOP、P-VOP、B-VOP、S-VOP，对于普通视频对象，只涉及到前三种，S-VOP 指SpriteVOP。

3.1 VOP 的定义与生成

MPEG-4 的编码单位是VOP，但标准并未规定生成VOP 的具体算法，而将其列入公开研究的内容。VOP 的生成是通过视频分割实现的。视频分割是实现基于对象的视频编码系统的基础，也是MPEG-4 编码的一个难点。图像分割技术根据分割所利用的信息，分为基于纹理的分割、基于运动的分割和基于时空的分割三类。按照人工参与的程度，图像分割分为自动分割和半自动分割。自动分割不需要用户的参与，只需要设置一些基本的参数，就可以由分割算法自动将视频对象分割出来，但是结果不很准确，主要用于实时编码；半自动分割需要用户的参与，因此可以得到准确的语义对象和边界，主要用于基于内容的操纵和交互式访问。基于编码对图像分割的要求不是很高，主要在于实时性上，这里，选用了一种时空联合自动视频对象分割算法。该算法首先对时域分割采用基于F-假设检验的方法来得到初始的变化检测模板，然后通过与基于形态学的空域分割融合来获得最终的运动对象。此算法计算比较简单，能较好的将前景运动对象从背景中分离出来，算法详见。

3.2 Sprite 编码

Sprite 编码是新一代的编码技术，它利用全局运动估计生成视频段背景的Sprite 图像（全景图），然后将这个Sprite 图像编码，以后各帧的背景编码都只是对该帧相对于Sprite 图像的运动参数进行编码。基于背景的平滑和纹理相关性大的特点，对Sprite 全景图的编码采用一种直接空间预测方法，基于篇幅限制，这里不作介绍，可参考[2]。Sprite 编码包括两部分，一是Sprite 的生成，使用全局运动估计来生成；二是Sprite 编码。Sprite 在最初的VOP 编码之前建立， MPEG-4标准中定义了两种类型的Sprite：静态Sprite 和动态Sprite。在这里选用动态Sprite，因此我们仅讨论动态Sprite 的生成与编码。

动态Sprite 的编码如图2 所示：视频序列的第一帧采用I-VOP 方法编码，而第一帧的重构图像在编码端和解码端建立相同的初始Sprite 图像；第二帧用全局运动估计算法估计当前VOP 与前一帧VOP 之间的全局运动，用参考点的轨迹描述两个VOP 之间的运动。采用P-VOP 方法编码第二帧的纹理，不同的是编码该VOP 各个宏块时，运动补偿的方式除了宏块和块运动补偿外，还可以用Sprite图像为参考进行运动补偿，此时宏块的运动补偿为全局运动补偿。解码器的解码参考点的轨迹得到全局运动参数，然后解码纹理信息得到第二帧的重构图像，根据全局运动参数和第二帧重构图像更新Sprite 图像。同样的方法用来编码序列后面的VOP。

　　图2 动态Sprite 编码框图

3.3 可扩展编码

根据视频监控的特点，当传输图像的分辨率和帧率不是很高时，仍能达到一般要求下的监控效果。因此我们可以采用MPEG-4 的基于对象的分层传输思想，使用空域分级功能调节空间分辨率，使用时域分级功能调节帧率。这样做一方面可以方便地实现码率控制，对网络带宽的变化具有很好的自适应性，另一方面，用户可以通过交互功能选择分辨率和帧率，以得到更好的视频效果或获得某一对象局部的细节。MPEG-4 定义了一种通用的可分级扩展框架来实现空间和时间可分级扩展，如图3 所示。

　　图3 MPEG-4 通用的可分级扩展框架图

当用于空域扩展时，可扩展预处理器对输入的VOP 下采样，得到由VOP编码器处理的基本层VOP。中间处理器处理重建的基本层VOP，并对其进行上采样，原始VOP 与中间处理器输出的差作为增强层编码器的输入。在增强层中的编码是以P-VOP 或B-VOP 方式编码的。通过反复接器可以分别访问基本层和增强层解码器对应的基本层和增强层码流，解码器端的中间处理器与编码端执行相同的操作，扩展后处理器执行必要的转换工作。
当扩展编码使用时域扩展编码时，可扩展预处理器在时域上将一个VO 分解成VOP 的两个子流，其中一个被输入到基本层编码器中，另一个输入到增强层编码器中。在这种情况下，不需要中间处理器，而是简单地将解码的VOP 基本层输入到VOP 增强层编码器，增强层编码器将使用它们进行时域预测。可扩展后处理器只是简单地输出基本层的VOP，并不进行任何转换，但是在时域上混合基本层和增强层VOP，以产生更高时域分辨率的增强输出。

3.4 普通VOP 的形状、运动、纹理编码

形状编码是其他的编码标准中所没有的，编码的信息有两类：二值形状信息（binary shapeinformation）和灰度级形状信息（gray scale shape information）。二值形状信息就是用0、1 的方法表示编码的VOP 的形状，0 表示非VOP 区域，1 表示VOP 的区域；灰度级形状信息可取值0～255，类似于图形学中的α 平面的概念，0 表示非VOP 区域（即透明区域），1～255 表示VOP 区域透明程度的不同，255 表示完全不透明。灰度级形状信息的引入主要是为了使前景物体叠加到背景上时不至于界太明显、太生硬，进行一下模糊处理。这里二值形状采用基于上下文的算术编码方法[4]，整个编码过程可分为以下五步：①对于给定VOP 的二值形状图重新确定形状边界，并将它分为若干个16×16 二值α块(Binary Alpha Block，缩写为BAB)。②对即将编码的BAB 块进行运动估计，得到运动矢量MVs(MV for shape 缩写为MVs)。③对该VOP 中待编码的BAB 块确定编码方式。④对待编码的BAB 块确定分辨率。⑤对BAB 块进行编码。灰度级编码形状编码与此类似。对普通视频对象，MPEG-4 编码算法支持三种类型的VOP：I-VOP、P-VOP、B-VOP。在MPEG-4 中运动预测和运动补偿可以是基于16×16 宏块，也可以为8×8 块。如果宏块完全位于VOP 内，运动估计使用一般的方法进行；倘若宏块位于VOP 边界，则使用图像填充技术给VOP 外的像素指定值。然后利用这些值计算SAD。对于P-VOP 和B-VOP，运动矢量首先被差分编码，然后再用可变长编码运动矢量。

视频对象的纹理信息用亮度Y 和两个色差分量Cb、Cr 表示，对于I-VOP，纹理信息直接包含在亮度和色差分量中，在有运动补偿的情况下，纹理信息用运动补偿后的残差表示。纹理信息的编码使用了标准的8*8 的DCT。纹理编码中，帧内VOP 和运动补偿后的残差数据都用相同的8×8 块DCT 方案编码，对亮度和色度分别做DCT。对于VOP 之内的宏块用与H.263 相同的技术编码，对位于VOP 形状边缘的宏块，有两种选择，一是用图像填充技术填满宏块中VOP 以外的部分，另一种是用形状自适应DCT 编码的方法。后者只对VOP 内部的像素编码，从而在比特率相同的情况下有较高的质量，代价是应用的复杂度稍高，考虑到视频监控的实时要求，选用了图像填充技术中的低通外推（Low PassExtrapolotion）方法。接着再做DCT。对DCT 后的数据量化、扫描与可变长编码操作类似于MPEG- 2 和H.263，在此就不详述了。

4 小结

本文根据图像监控系统的特点，吸取MPEG-4 编码标准的思想，提出了用软件实现MPEG-4 在视频监控应用中的编码的主要框架，相较目前使用较多的硬件方案，更能贴近实际应用的要求，具有很好的灵活性和可升级性，又可降低成本。但由于MPEG-4 的编码非常复杂，加上其技术上还不是很完善，所以实现上有一定的难度尤其如何保持其实时性能上难度更大。随着高速处理芯片的不断出现及MPEG-4 在技术上的发展完善，这些问题将迎刃而解。

作者：佚名　合作媒体：不详　编辑：顾北

　热点技术

“5G”，真的来了！牛在哪里？	5G，是伪命题吗？
云视频会议关键技术浅析	运营商语音能力开放集中管理方案分析
5G网络商用需要“无忧”心	面向5G应运而生的边缘计算
简析5G时代四大关键趋势	国家网信办就《数据安全管理办法》公开征求意见
《车联网（智能网联汽车）直连通信使用5905-5925MHz频段管理规定（	中兴通讯混合云解决方案，满足5G多元业务需求
大规模MIMO将带来更多无线信道，但也使无线信道易受攻击	蜂窝车联网的标准及关键技术及网络架构的研究
4G与5G融合组网及互操作技术研究	5G中CU-DU架构、设备实现及应用探讨
无源光网络承载5G前传信号可行性的研究概述	面向5G中传和回传网络承载解决方案
数据中心布线系统可靠性探讨	家庭互联网终端价值研究
鎏信科技CEO刘舟：从连接层构建IoT云生态，聚焦CMP是关键	SCEF引入需求分析及部署应用

　　版权与免责声明： ① 凡本网注明“合作媒体：通信界”的所有作品，版权均属于通信界，未经本网授权不得转载、摘编或利用其它方式使用。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：通信界”。违反上述声明者，本网将追究其相关法律责任。 ② 凡本网注明“合作媒体：XXX（非通信界）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。 ③ 如因作品内容、版权和其它问题需要同本网联系的，请在一月内进行。

通信视界

	华为余承东：Mate30总体销量将会超过两千万部通信界报道近日，华为面向国内市场正式发布了最新……
	赵随意：媒体融合需积极求变近几年来，随着技术的发展和媒体环境的变化，媒体融……

苗圩：建设新一代信息基础设施加快制造业数字
普通对话

华为余承东：Mate30总体销量将会超过两千万部
普通对话

赵随意：媒体融合需积极求变
普通对话

韦乐平：5G给光纤、光模块、WDM光器件带来新机
普通对话

安筱鹏：工业互联网——通向知识分工2.0之路
普通对话

库克：苹果不是垄断者
普通对话

华为何刚：挑战越大，成就越大
普通对话

华为董事长梁华：尽管遇到外部压力，5G在商业
普通对话

网易董事局主席丁磊：中国正在引领全球消费趋
普通对话

李彦宏：无人乘用车时代即将到来智能交通前景
普通对话

中国联通研究院院长张云勇：双轮驱动下，工业
普通对话

“段子手”杨元庆：人工智能金句频出，他能否
普通对话

高通任命克里斯蒂安诺·阿蒙为公司总裁
普通对话

保利威视谢晓昉：深耕视频技术助力在线教育
普通对话

九州云副总裁李开：帮助客户构建自己的云平台

通信前瞻

	杨元庆：中国制造高质量发展的未来是智能制造通信界讯高科技移动互联领域是辉煌70年的一个亮……
	对话亚信科技CTO欧阳晔博士：甘为桥梁，携"电通信界讯日前，工信部向……

杨元庆：中国制造高质量发展的未来是智能制造
普通对话

对话亚信科技CTO欧阳晔博士：甘为桥梁，携"电
普通对话

对话倪光南：“中国芯”突围要发挥综合优势
普通对话

黄宇红：5G给运营商带来新价值
普通对话

雷军：小米所有OLED屏幕手机均已支持息屏显示
普通对话

马云：我挑战失败心服口服，他们才是双11背后
普通对话

2018年大数据产业发展试点示范项目名单出炉 2
普通对话

陈志刚：提速又降费，中国移动的两面精彩
普通对话

专访华为终端何刚：第三代nova已成为争夺全球
普通对话

中国普天陶雄强：物联网等新经济是最大机遇
普通对话

人人车李健：今年发力金融拓展汽车后市场
普通对话

华为万飚：三代出贵族，PC产品已走在正确道路
普通对话

共享退潮单车入冬智享单车却走向盈利
普通对话

Achronix发布新品单元块推动eFPGA升级
普通对话

金柚网COO邱燕：天吴系统2.0真正形成了社保管