一种处理器的视频编码器平台的探讨-通信界-中国通信门户

您现在的位置：通信界 >> 通信政策 >> 技术正文

一种处理器的视频编码器平台的探讨

[ 通信界 / 佚名 / www.cntxj.net / 2012/3/25 10:56:28 ]

1 硬件平台

1.1 ADSP-BF561处理器

ADSP-BF561的推出使Analog Devices公司的Blackfin处理器系列得到了进一步的扩充，这款器件具有由两个Blackfin处理器内核构成的对称多处理结构。相比ADSP-BF533，ADSP-BF561可提供两倍的信号处理性能、两倍的片上处理器以及显着提高的数据带宽能力。ADSP-BF561与ADSP-BF533完全代码兼容，并利用架构的动态电源管理能力而继续保持了非常低的功耗。

Blackfin561是Blackfin系列中的一款高性能定点DSP视频处理芯片。ADSP-BF561集成了两个工作频率均高达756MHz的Blackfin处理器内核(ADI公司还提供了低成本的500MHz和600MHz版本)和2.6Mbytes的片上SRAM存储器。ADSP-BF561片上存储器被分配于每个内核的专用、高速L1存储器和一个128KBytes大容量共享L2存储器之间。32位外部端口和双16通道DMA控制器提供了极高的数据带宽。ADSP-BF561片上外设包括两个并行外设接口(均支持ITU-R 656视频格式化)和支持I2S格式的高速串行端口。ADSP-BF561专门针对各种消费类多媒体应用进行了优化。

1.2 基于ADSP-BF561的视频编码器平台

此评估板包括1块ADSP-BF561处理器、32MBSDRAM和4MBFlash，板中的AD-V1836音频编解码器可外接4输入/6输出音频接口，而ADV7183视频解码器和ADV7171视频编码器则可外接3输入/3输出视频接口此外，该评估板还包括1个UART接口、1个USB调试接口和1个JTAG调试接口。摄像头输入的模拟视频信号经视频芯片ADV7183A转化为数字信号，此信号从Blackfin561的PPI1(并行外部接口)进入Blackfin561芯片进行压缩，压缩后的码流则经ADV7179转换后从ADSP-BF561的PPI2口输出。此系统可通过Flash加载程序，并支持串口及网络传输。编码过程中的原始图像、参考帧等数据可存储在SDRAM中。

2 H.264视频压缩编码算法的主要特点

H.264压缩算法和以太网(IP)接口，可实现1路单向数字视频、2路双向高保真音频、1～2路双向异步数据在以太网上高质量传输。视频编解码标准主要包括两个系列：一个是MPEG系列，一个是H.26X系列。其中MPEG系列标准由ISO/IEC组织制定，H.26X系列标准由ITU-T制定。

H.264视频压缩算法采用与H.263和MPEG-4类似的、基于块的混和编码方法，它采用帧内编码(Intra)和帧间编码(Inter)两种编码模式。与以往的编码标准相比，为了提高编码效率、压缩比和图像质量，H.264采用了以下全新的编码技术：

(1)H.264按功能将视频编码系统分为视频编码层(VCL，VideoCodingLayer)和网络抽象层(NAL，NetworkAbstractionLayer)两个层次。其中VCL用于完成对视频序列的高效压缩，NAL则用于规范视频数据的格式，主要提供头部信息以适合各种媒体的传输和存储。
     (2)先进的帧内预测，它对含有较多空域细节信息的宏块采用4×4预测，而对于较平坦的区域则采用16×16的预测模式，前者有9种预测方法，后者有4种预测方法。
     (3)帧间预测采用更多的块划分种类，标准中定义了7种不同尺寸和形状的宏块分割和子宏块分割。由于采用更小的块和自适应编码方式，故可使得预测残差的数据量减少，从而进一步降低了码率。
     (4)1/4采样精度运动补偿：以前的标准最多1/2精度运动补偿，首次1/4采样精度运动补偿出现在MPEG-4第二部分高级类部分，但H.264/AVC大大减少了内插处理的复杂度。
     (5) 改善“跳过”和“直接”运动推测：在以前的标准中，预测编码图像的“跳过”区不能有运动。当编码有全局运动的图像时，该限制有害。H.264/AVC对“跳过”区的运动采用推测方法。对双预测的B帧图像，采用高级运动预测方法，称为“直接”运动补偿，进一步改善编码效率。
     (6)整数变换(DCT/IDCT)。对残差图像的4×4整数变换技术，采用定点运算来代替以往DCT变换中的浮点运算。以降低编码时间，同时也更适合到硬件平台的移植。
     (7)H.264/AVC支持两种熵编码方法，即CAVLC(基于上下文的自适应可变长编码)和CABAC(基于上下文的自适应算术编码)。其中CAVLC的抗差错能力比较高，但编码效率比CABAC低；而CABAC的编码效率高，但需要的计算量和存储容量更大。
     (8)多参考图像运动补偿：在MPEG-4及以前的标准中，P帧只使用一帧，B帧只使用两帧图像进行预测。H.264/AVC使用高级图像选择技术，可以用以前已编码过且保留在缓冲区的大量的图像进行预测，大大提高了编码效率。

H.264的这些新技术使运动图像压缩技术向前迈进了一大步，它具有优于MPEG-4和H.263的压缩性能，可应用于因特网、数字视频、DVD及电视广播等高性能视频压缩领域。

3 H.264视频编码算法的实现

将H.264在DSP进行改进要经过以下3个步骤：PC机上的C算法优化、从PC机到DSP的程序移植、在DSP平台上的代码优化。

3.1 PC机上的C算法优化

根据系统要求，本设计选择了ITU的Jm8.5版本baselineprofile作为标准算法软件。ITU的参考软件JM是基于PC机设计的，故可取得较高的编码效果。将视频编解码软件移植到DSP时，应考虑到DSP系统资源，主要应考虑的因素是系统空间，需要对原始的C代码进行评估，这就需要对所移植的代码有所了解。

了解了算法结构以后，还需要确定在编码算法的实现过程中，运算量较大且耗时较长的部分。VC6自带的profile分析工具显示：帧内与帧间编码部分占用了整体运行时间的60%以上。其中ME(MoveEstimation，运动估计)又占用了其中较多的时间。

(1)大幅删减不必要的文件和函数

由于选用了baseline和单一参考帧，因此，很多文件和函数都可以删减，包括有关B帧、SI片、SP片和数据分割、分层编码、权值预测模式、CABAC编码模式等不支持特性的冗余程序代码，此外，还可以删除top_pic、bottom_pic等与场有关的全局变量与局部变量、分层编码、多slice分割以及FMO、与场编码/帧场自适应编码/宏块自适应编码有关的预测、参考帧排序、输入输出以及解码器缓存操作等；也可以删除随机帧内宏块刷新模式和权值预测模式等相关的冗余代码，同时删除rtp.c；sei.c中包含一些辅助编码信息(并不编入码流中)，如果不用，也可以删除leaky_bucket.c用于计算泄漏缓存器的参数。

(2)配置函数的改写

由于JM的系统参数配置是通过读取encoder.cfg文件来实现的，故可将参数配置由读取文件改为通过初始化集中赋值函数来实现，这样既减少了代码量，又减少了对有限内存空间的占用和读取时间，提高了编码器整体的编码速度。

(3)去除冗余的打印信息

为了调试与算法改进的方便，JM保留了大量的打印信息。为了提高编码速度，减少存储空间消耗，这些信息完全可以删掉。如果lor.dat和stat.dat仅需在PC机上调试时使用，也没必要移植到DSP平台上，跟这部分相关的代码完全可以去除。但是，调试时所需的基本信息(如码率、信噪比、编码序列等)则应保留参考。

通过调整可使得代码的结构、容量更加精简，从而为接下来在DSP上的移植做好准备。

3.2 从PC机到DSP的程序移植

要将PC端精简的程序移植到ADSP-BF561的开发环境VisualDSP下，以使其能够初步运行，所需考虑的主要是语法规则和内存分配等问题。

(1)除去所有编译环境不支持的函数
     (2)添加与硬件相关的代码
     (3)配置LDF文件
     (4)Malloc问题的解决

4 DSP平台上的代码优化

在VisualDSP开发环境下对代码进行优化的主要方法有C语言级优化和汇编级优化。

4.1 C语言级优化

通过VC6的profile分析工具发现：移植与优化的重点应在运动估计部分。DS算法可采用两种搜索模板，分别是有9个检索点的大模板LD-SP和有5个检索点的小模板SDSP(SmallDiamondSearchPattern)。搜索时，先用大模板计算，当最小块误差SAD点出现在中心点处时，再将大模板LDSP换为SDSP进行匹配运算，这时，5个点中具有最小SAD者若为中心点，则该点即为最优匹配点，然后结束搜索，否则将继续以此点为搜索中心进行SPSS搜索。

经JM实验证实，采用此种方法，可以节约大约10%的运行时间，且代码量无太大增长。

针对DSP的特点和相关的硬件指令，设计时可对代码进行如下优化：

◇对程序结构进行调整。对不适合DSP执行的语句进行改写，以提高代码的并行性。
     ◇宏的使用。也就是将有些较短，执行单一、调用次数多的函数改为宏。
     ◇循环优化是将C语言中的for循环打开，排流水线，提高并行性。
     ◇浮点数定点化。因为Blackfin561并不支持浮点运算，但原始程序代码却是浮点运算的格式，所以必须改成定点运算，而其修改后的执行速度也会加快很多。
     ◇尽量用逻辑运算代替乘除运算。由于乘除运算指令的执行时间要远远大于逻辑移位指令，尤其是除法指令，故应尽量用逻辑移位运算来代替乘除运算，以加快指令的运行速度。
     ◇减少判断转换。
     ◇尽量静态分配内存。
     ◇调用系统提供的丰富的内联函数。

此外，为了充分发挥DSP的运算能力，还必须从它的硬件结构出发，最大限度地利用它的8个功能单元，使用软件流水线尽量让程序无冲突地并行执行。也可将最耗时的函数抽取出来，用线性汇编改写，从而最大限度的利用DSP的并行性。

4.2 汇编级优化

汇编级优化主要指如下几点操作：

(1)使用寄存器资源

Blackfin561提供了8个32位数据寄存器以及一系列的地址寄存器。使用寄存器代替局部变量时，若局部变量用来保存中间结果，那么用寄存器代替局部变量可省掉很多访问内存的时间。

(2)使用专用指令

Blackfin561提供有求最大值、最小值、绝对值、CUP及大量视频专用指令，应可能用多位的指令来访问少位的数据。通过使用这些指令能大大提高代码的执行速度。如用int型(32位)访问2个short(16位)型数据时，可将其分别放在32位寄存器的高16位和低16位字段。这样，数据读取效率可以提高1倍，从而减少内存访问次数。

(3)使用并行指令和向量指令

ADSP-BF561中每条通用指令都可以和一条或两条存储器访问指令并列执行，这样有利于ADSP-BF561的流水线满负荷运行，更充分发挥ADSP-BF561的数据处理能力。

(4)合理存放反复调用的程序段

把被反复调用的程序段(如DCT变换和IDCT变换)放在片内程序存储区中，把频繁用到的数据段(如编码表)放在片内数据存储器中，而把不常用到的程序和数据段放在片外存储器中，以避免对程序或数据进行不必要的反复搬移。

(5)合理使用内外存储器

BF561片内只有256KB的存储空间，因此当前帧、参考帧和当前帧的重建帧都必须放至片外存储器，压缩码流若被主机读取，也可放至片外。其它数据如程序代码、全局变量、VLC码表、各编码模块产生的中间数据等均可放至片内。

(6)DMA的使用

由于CPU访问片外存储器的速度通常要比访问片内慢几十倍，片外数据的传输通常成为程序运行时的瓶颈，这样，即使代码效率很高，流水线也会因为等待数据而被严重阻塞。解决这一问题的有效方法是用DMA传送数据。程序是逐个宏块进行编码的，在编码当前宏块的同时，先由DMA将下一个宏块的数据、用到的参考帧数据由片外传送至片内，当前宏块做完运动补偿后，DMA又将重建后的宏块由片内传送至片外。这样CPU只对片内数据进行操作，从而使流水线可以顺利进行，而压缩码流按逐个码字有时间间隔地写入，可由CPU直接写至片外。

5 结束语

经过用ADSP-BF561汇编语言改写的对应函数的优化程序经调试运行后，DCT，IDCT部分效率提高了大约15倍，去块滤波部分效率提高了大约6～7倍。对于模块中的其它部分函数，也同样取得了良好的优化结果。说明其优化工作确实达到了良好的效果。

作者：佚名　合作媒体：不详　编辑：顾北

　热点技术

“5G”，真的来了！牛在哪里？	5G，是伪命题吗？
云视频会议关键技术浅析	运营商语音能力开放集中管理方案分析
5G网络商用需要“无忧”心	面向5G应运而生的边缘计算
简析5G时代四大关键趋势	国家网信办就《数据安全管理办法》公开征求意见
《车联网（智能网联汽车）直连通信使用5905-5925MHz频段管理规定（	中兴通讯混合云解决方案，满足5G多元业务需求
大规模MIMO将带来更多无线信道，但也使无线信道易受攻击	蜂窝车联网的标准及关键技术及网络架构的研究
4G与5G融合组网及互操作技术研究	5G中CU-DU架构、设备实现及应用探讨
无源光网络承载5G前传信号可行性的研究概述	面向5G中传和回传网络承载解决方案
数据中心布线系统可靠性探讨	家庭互联网终端价值研究
鎏信科技CEO刘舟：从连接层构建IoT云生态，聚焦CMP是关键	SCEF引入需求分析及部署应用

　　版权与免责声明： ① 凡本网注明“合作媒体：通信界”的所有作品，版权均属于通信界，未经本网授权不得转载、摘编或利用其它方式使用。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：通信界”。违反上述声明者，本网将追究其相关法律责任。 ② 凡本网注明“合作媒体：XXX（非通信界）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。 ③ 如因作品内容、版权和其它问题需要同本网联系的，请在一月内进行。

通信视界

	华为余承东：Mate30总体销量将会超过两千万部通信界报道近日，华为面向国内市场正式发布了最新……
	赵随意：媒体融合需积极求变近几年来，随着技术的发展和媒体环境的变化，媒体融……

苗圩：建设新一代信息基础设施加快制造业数字
普通对话

华为余承东：Mate30总体销量将会超过两千万部
普通对话

赵随意：媒体融合需积极求变
普通对话

韦乐平：5G给光纤、光模块、WDM光器件带来新机
普通对话

安筱鹏：工业互联网——通向知识分工2.0之路
普通对话

库克：苹果不是垄断者
普通对话

华为何刚：挑战越大，成就越大
普通对话

华为董事长梁华：尽管遇到外部压力，5G在商业
普通对话

网易董事局主席丁磊：中国正在引领全球消费趋
普通对话

李彦宏：无人乘用车时代即将到来智能交通前景
普通对话

中国联通研究院院长张云勇：双轮驱动下，工业
普通对话

“段子手”杨元庆：人工智能金句频出，他能否
普通对话

高通任命克里斯蒂安诺·阿蒙为公司总裁
普通对话

保利威视谢晓昉：深耕视频技术助力在线教育
普通对话

九州云副总裁李开：帮助客户构建自己的云平台

通信前瞻

	杨元庆：中国制造高质量发展的未来是智能制造通信界讯高科技移动互联领域是辉煌70年的一个亮……
	对话亚信科技CTO欧阳晔博士：甘为桥梁，携"电通信界讯日前，工信部向……

杨元庆：中国制造高质量发展的未来是智能制造
普通对话

对话亚信科技CTO欧阳晔博士：甘为桥梁，携"电
普通对话

对话倪光南：“中国芯”突围要发挥综合优势
普通对话

黄宇红：5G给运营商带来新价值
普通对话

雷军：小米所有OLED屏幕手机均已支持息屏显示
普通对话

马云：我挑战失败心服口服，他们才是双11背后
普通对话

2018年大数据产业发展试点示范项目名单出炉 2
普通对话

陈志刚：提速又降费，中国移动的两面精彩
普通对话

专访华为终端何刚：第三代nova已成为争夺全球
普通对话

中国普天陶雄强：物联网等新经济是最大机遇
普通对话

人人车李健：今年发力金融拓展汽车后市场
普通对话

华为万飚：三代出贵族，PC产品已走在正确道路
普通对话

共享退潮单车入冬智享单车却走向盈利
普通对话

Achronix发布新品单元块推动eFPGA升级
普通对话

金柚网COO邱燕：天吴系统2.0真正形成了社保管