基于DSP的H.264编码器的电路设计[图]-通信界-中国通信门户

您现在的位置：通信界 >> 视频通信 >> 技术正文

基于DSP的H.264编码器的电路设计[图]

[ 通信界 / 佚名 / www.cntxj.net / 2012/2/14 8:22:28 ]

1 引言

H.264是ITU-T的视频编码专家组(VCEG)和ISO/IEC的活动图像专家组(MPEG)联合制定的视频压缩标准。它在H.263/H.263++的基础上发展,在继承所有编码压缩技术优点的同时引入许多全新的编码技术和网络适配层NAL的概念，从而拥有更高的编码效率和更好的网络适配性。为从低码率的实时通信系统或无线环境到高码率的HDTV和数字存储系统提供一个优良的视频压缩编码通用工具。但H.264标准优异的性能表现是以编码运算复杂度和运算量大为代价，在通用的PC机平台实现会占用较大的CPU和内存资源。随着数字信号处理器(DSP)技术的高速发展，DSP的处理速度和能力飞速提高。DSP已满足H.264标准的编解码运算速度要求。因此，在稳定的媒体处理器平台上实现H.264标准有着较好的工程意义和应用前景。

详细介绍了以TMS320DM6446DSP为核心的视频编码系统的硬件设计，并重点研究了H.264编码器在以TMS320DM 6446为目标的CCS平台上的移植和优化工作。

2 视频编码系统硬件设计

2.1 DSP的选型

DSP选用TI公司的Davinci媒体处理专用器件TMS320DM6446(简称DM6446)。它采用ARM+DSP双核架构，包含一个TMS320C64x+核心和一个ARM926EJ-S核心。C64x+核心采用改进的超长指令字VLIW体系结构，内部拥有8个并行的运算单元，时钟频率600MHz，峰值处理能力高达4752MI/s。DM6446片内为两级高速缓存(Cache)结构，设计有独立的32位DDR2 SDRAM接口和16位异步EMIF接口。此外，DM6446还集成有多种适用于视音频多媒体处理的片内资源和接口，如用于和外部解码器连接的视频处理前端模块VPFE、和视频显示设备连接的视频处理后端模块VPBE、多通道音频串口等。

DM6446不仅在处理性能上完全满足H.264标准要求。而且在内部结构、片内资源和外部接口上对视频处理应用专门优化，大大降低视频应用的开发难度和成本。

2.2 系统结构框图

视频编码系统硬件结构原理框图如图1所示。主机通过PCIE总线对DSP进行初始化加载程序。摄像头输出的模拟视频信号经视频解码模块转换为数字信号，经FPGA转换电平。通过DM6446的VPFE模块接口送人DSP，进行压缩编码处理。编码后的视频数据从DM6446的EMIF接口输出通过PCIE总线送回主机进行下一步处理。DM6446的VPBE模块可将采集的数字视频信号再转换为模拟信号输出至电视进行监控。DDR2 SDRAM存储编码过程中的原始图像、参考帧、编码参数等数据。DM6446通过I2C总线配置A/D转换器。FPGA与PCIE桥PEX8311之间加入双端口RAM，以提高数据的传输效率。

基于DSP的H.264编码器的电路设计

2.3 视频解码模块设计

模拟视频信号的传输格式种类很多，而且国际上对数字视频信号的传输格式有明确的标准规定，因此一般通用的A/D转换器并不适合视频领域应用。这里选用专用的视频解码器ADV7189B，它支持12路模拟视频通道，包含3个具有防噪性能的12位54 MHz的A/D转换器。支持CVBS、S-端子、YprPb 3种格式的模拟视频信号输入，能够自动侦测NTSL/PAL/SECAM制式，输出ITU-R BT.656标准的数字视频信号。选用12路模拟通道中的3路，复用的支持3种模拟视频格式。ADV7189B输出10位数字视频信号、独立的垂直同步信号VD、水平同步信号HD和像素同步时钟LLC1，电压均为3.3V电平，经过FPGA转换为DM6446要求的1.8V，然后从DM6446的VPFE模块专用数字视频信号接口送入DSP。压缩编码前，VPFE模块将ITU-R BT.656标准的视频数据转换为H.264兼容的YUV4:2:0格式，存入DDR2 SDRAM中。VPFE模块还支持对视频数据进行白平衡、缩放等预处理操作。ADG3301实现I2C总线的电平转换。

2.4 视频编码模块设计

DM6446片内的VPBE模块包含4个54MHz的D/A转换器，可在DM6446内部将数字视频信号直接转化为模拟视频信号，4路输出，并且支持CVBS、S-端子、YprPb 3种模拟视频格式。因此，视频编码模块设计较为简单，只需对4路模拟输出信号放大，就可直接与监视设备连接。选用TI公司的电压反馈CMOS运算放大器OPA357进行运算放大。

2.5 控制电路设计

DM6446的视频信号接口、EMIF接口为1.8V电平，ADV7189B接口、PCIE桥接口为3.3V电平。系统需要大量的电平转换工作，同时还需要实现大量的逻辑控制、PCIE桥与DM6446的通信协议。FPGA器件是最适合的选择。选用Altera公司的逻辑器件EP2C35，它可在片内实现1.8V、2.5V、3.3V电平的转换，并且能够满足系统对逻辑控制功能的要求。EP2C35内部集成有片内存储器，可在ADV7189B与DM6446之间建立一个缓存区，提高数据传输效率。FPGA与DM6446、ADV7189B和PCIE桥接口电路如图2所示。

基于DSP的H.264编码器的电路设计

3 H.264编码器的DSP移植与优化

目前，H.264编码器的实现版本主要有：JM、T264、X264。其中JM是H.264官方源码，实现H.264所有特征，但其程序结构冗长，只考虑引入各种新特性以提高编码性能，忽略编码复杂度，其复杂度极高，不宜实用；T264编码器编码输出标准的264码流，解码器只能解T264编码器生成的码流；X264是编码器注重实用，在不明显降低编码性能的前提下，努力降低编码的计算复杂度。这里，用X264编码器对DSP平台移植、优化。X264程序在DSP平台上实现及优化主要有：程序简化、代码移植、代码优化。

3.1 程序简化

X264编码器除支持H.264的基本档次外，还包含主要档次的某些功能选项以及其他功能模块，代码尺寸较大，因此需要将不必要的功能模块删除，以减小代码尺寸。主要做以下删减：删除X264程序中的解码部分，以及基本档次功能之外的CABAC、Bslice部分；X264程序是基于X86的PC平台，包含了SSE、MMX等。PC平台使用的优化技术，在DSP平台下无效：针对DSP平台特点，调整删减后的代码文件结构。

3.2 代码移植

TI公司的DSP开发工具CCS具有自己的ANSI C编译器和优化器，并有自己的语法规则和定义，经过上一步简化后得到纯C版本的X264编码器需要经过修改才能够在CCS下应用于具体的DSP。主要包括：①Visual c++、CCS对于变量和结构体的“重复定义”问题的不同处理，需更改头文件中变量和结构体定义的位置；②用功能相同的库函数代替CCS中没有的库函数，如strncasecmp()；③数据格式的不同，用long代替CCS中没有的_int64格式；④按照CCS下C语言的规则定义数组；⑤修改系统配置参数的读取方式；⑥编写针对TMS320DM6446存储结构的CMD文件。如此，X264便可以在CCS下编译通过并运行。

3.3 代码优化

纯C版本的X264程序并没有利用DM6446的资源和并行机制，代码运行速度极低。因此必须对代码进行优化，提高处理性能。X264代码优化有以下3个层次：项目级优化、算法级优化和指令级优化：

(1)项目级优化项目级优化主要是对CCS提供的各种编译参数进行选择、搭配、调整，如本文使用的选项-o3、-pm等；利用CCS编译器提供的优化功能，改善循环及多重循环体性能，进行软件流水，提高软件的并行性；改写不适合编译器优化的语句，使CCS能够对程序进行更好的优化。

基于DSP的H.264编码器的电路设计

(2)算法级优化进行算法级优化时。应使VC环境下的纯C版本与CCS下的版本同步更新，VC版本运行正确，既可以保证算法理论上的正确，又可以加快工作速度并减少问题的产生。该算法优化工作主要有以下几点：①运动估算法的选择：X264编码器提供3种可选的整像素运动估算法：X264_ME_ESA(全搜索法)、X264_ME_HEX(六边形搜索法)、X264_ME_DIA(小菱形搜索法)。在VC环境下使用纯C版本代码对同一视频序列使用3种不同的搜索方法进行编码。对比3种搜索方法在编码速度、峰值信噪比(PSNR)、码率方面的性能。对比之下X264_ME_ESA算法的峰值信噪比最高,X264_ME_HEX次之，X264_ME_DIA最低，但相互之间的质量差别并不大，码率差别也很小，但编码速度却有明显差距，X264_ME_DIA较前两者在编码速度上有明显的优势。经比较，选择使用X264_ME_DIA运动估计算法。②帧内预测模式的改进：在X264的帧内预测流程中加入提前终止模式选择的条件，改进算法的流程。进行16×16宏块帧内模式搜索时，在当前模式的开销小于已搜索过的模式的最小开销的一半时，终止16×16帧内预测模式选择，以当前模式为最佳16×16帧内预测模式。对4×4块也加入相同的条件，并且若当前4×4块帧内预测模式的预测开销比相应的最佳16×16块帧内预测模式的开销的1/16还要小，则终止4×4块的帧内预测模式选择，以当前预测模式作为最佳4×4块的帧内预测模式。改进后的帧内预测主体流程如图3所示，灰色部分为加入的判定条件。

帧间预测模式的改进：将当前的16×16宏块划分为4个8×8宏块，分别预测其运动矢量，然后以左右相邻、上下相邻的2个8×8块的运动矢量的差值和阈值相比较为依据，判定是否进行16×8、8×16等分块模式的预测，最后选择开销最小的划分模式为最佳帧间划分模式。

(3)指令级优化 DM6446一个时钟周期内可并行运行8条指令，一次可存取64位数据，内部拥有64个32位通用寄存器，并且支持对寄存器中的4个8位字节或2个16位字节分别进行运算处理，这些使得DM6446具有很强的并行运算能力。视频图像的像素尺寸一般是4的倍数，X264中像素的值是用8位或16位数据按矩阵形式有规律的存储，这种数据存储结构与DM6446的并行处理方式很契合。因此对X264程序进行指令优化充分发挥DM6446的并行运算能力，是提高编码器速度的关键。主要分为以下两部分：①使用内联函数优化；C6000编译器提供了许多内联函数intrinsics，它们是汇编指令映射的在线函数，不宜用C语言实现其功能的汇编指令都有对应的intrinsics函数。这样就可在C语言结构中直接使用内联函数实现对多个数据的并行运算操作。如：未使用内联函数优化前X264程序调用一次双线性内插函数只能计算一个亚像素点的值，而使用内联函数_mem4、_avgu4等进行优化后，一次可以计算4个亚像素点的值，大大提高了运算速度。②使用线性汇编语言优化：由于线性汇编不需要考虑寄存器分配、指令延迟、并行指令安排等因素。因此可以利用CCS提供的profile分析工具将使用频率高、耗时多的函数抽取出来，根据事先已知的数据间的相关性等信息，在程序中直接改写函数汇编，人工优化。涉及的算法有：SAD、SSD的计算；DCT变换；反DCT变换、亚像素搜索等。

4 实验结果

选取具有代表性的视频序列carphone(人物运动幅度较大)、news(背景变化，人物运动幅度不大)、container(背景简单，景物运动缓慢)进行编码。视频为YUV 4:2:0格式.QCIF，量化步长定为26，共50帧，采用IPPP…编码模式。DM6446的时钟频率为600MHz。表1为优化前后编码时钟周期对比，I帧编码速度平均提高了9倍，P帧编码速度平均提高了11倍。

基于DSP的H.264编码器的电路设计

以视频Miss-America为例，研究、对比移植优化后的编码器在不同的量化步长值(QP)下，图像的压缩质量，如图4所示。

基于DSP的H.264编码器的电路设计

5 结论

移植优化后的X264编码器在CCS环境下可正确编码，在量化步长值26下编码图像质量较高，优化后编码速度较优化前有明显提升。介绍的H.264视频编码系统的硬件设计，和X264编码器针对DM6446平台移植、优化的思路和方法，对构建高效的视频应用平台具有一定的参考价值。

作者：佚名　合作媒体：不详　编辑：顾北

　热点技术

“5G”，真的来了！牛在哪里？	5G，是伪命题吗？
云视频会议关键技术浅析	运营商语音能力开放集中管理方案分析
5G网络商用需要“无忧”心	面向5G应运而生的边缘计算
简析5G时代四大关键趋势	国家网信办就《数据安全管理办法》公开征求意见
《车联网（智能网联汽车）直连通信使用5905-5925MHz频段管理规定（	中兴通讯混合云解决方案，满足5G多元业务需求
大规模MIMO将带来更多无线信道，但也使无线信道易受攻击	蜂窝车联网的标准及关键技术及网络架构的研究
4G与5G融合组网及互操作技术研究	5G中CU-DU架构、设备实现及应用探讨
无源光网络承载5G前传信号可行性的研究概述	面向5G中传和回传网络承载解决方案
数据中心布线系统可靠性探讨	家庭互联网终端价值研究
鎏信科技CEO刘舟：从连接层构建IoT云生态，聚焦CMP是关键	SCEF引入需求分析及部署应用

　　版权与免责声明： ① 凡本网注明“合作媒体：通信界”的所有作品，版权均属于通信界，未经本网授权不得转载、摘编或利用其它方式使用。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：通信界”。违反上述声明者，本网将追究其相关法律责任。 ② 凡本网注明“合作媒体：XXX（非通信界）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。 ③ 如因作品内容、版权和其它问题需要同本网联系的，请在一月内进行。

通信视界

	华为余承东：Mate30总体销量将会超过两千万部通信界报道近日，华为面向国内市场正式发布了最新……
	赵随意：媒体融合需积极求变近几年来，随着技术的发展和媒体环境的变化，媒体融……

苗圩：建设新一代信息基础设施加快制造业数字
普通对话

华为余承东：Mate30总体销量将会超过两千万部
普通对话

赵随意：媒体融合需积极求变
普通对话

韦乐平：5G给光纤、光模块、WDM光器件带来新机
普通对话

安筱鹏：工业互联网——通向知识分工2.0之路
普通对话

库克：苹果不是垄断者
普通对话

华为何刚：挑战越大，成就越大
普通对话

华为董事长梁华：尽管遇到外部压力，5G在商业
普通对话

网易董事局主席丁磊：中国正在引领全球消费趋
普通对话

李彦宏：无人乘用车时代即将到来智能交通前景
普通对话

中国联通研究院院长张云勇：双轮驱动下，工业
普通对话

“段子手”杨元庆：人工智能金句频出，他能否
普通对话

高通任命克里斯蒂安诺·阿蒙为公司总裁
普通对话

保利威视谢晓昉：深耕视频技术助力在线教育
普通对话

九州云副总裁李开：帮助客户构建自己的云平台

通信前瞻

	杨元庆：中国制造高质量发展的未来是智能制造通信界讯高科技移动互联领域是辉煌70年的一个亮……
	对话亚信科技CTO欧阳晔博士：甘为桥梁，携"电通信界讯日前，工信部向……

杨元庆：中国制造高质量发展的未来是智能制造
普通对话

对话亚信科技CTO欧阳晔博士：甘为桥梁，携"电
普通对话

对话倪光南：“中国芯”突围要发挥综合优势
普通对话

黄宇红：5G给运营商带来新价值
普通对话

雷军：小米所有OLED屏幕手机均已支持息屏显示
普通对话

马云：我挑战失败心服口服，他们才是双11背后
普通对话

2018年大数据产业发展试点示范项目名单出炉 2
普通对话

陈志刚：提速又降费，中国移动的两面精彩
普通对话

专访华为终端何刚：第三代nova已成为争夺全球
普通对话

中国普天陶雄强：物联网等新经济是最大机遇
普通对话

人人车李健：今年发力金融拓展汽车后市场
普通对话

华为万飚：三代出贵族，PC产品已走在正确道路
普通对话

共享退潮单车入冬智享单车却走向盈利
普通对话

Achronix发布新品单元块推动eFPGA升级
普通对话

金柚网COO邱燕：天吴系统2.0真正形成了社保管