1 U-vMOS的标准及对网络要求
1.1 U-vMOS评价体系介绍
视频已成为网络上的最主要流量,视频业务体验已成为衡量网络服务质量的关键指标。伴随着视频分辨率的不断提升(从360p/720p逐渐过度至4K/8K),视频业务对网络的要求也越来越高。如何评价当前网络下视频业务的体验,对用户和运营商来说意义越来越重大。
IP承载网是一个“尽力而为”的网络,网络视频业务占用带宽资源较多、实时性要求较高,并且对分组丢失、时延、抖动等网络特性非常敏感,尤其是时变的网络特性严重影响网络视频业务的质量。通过对网络视频质量的监控和反馈,可以调节编解码器或信道的参数,改善传输视频的服务质量。因此,需要实时准确地对网络视频服务质量进行监控,获得反映用户感受的视频体验质量。
早在2009年ITU-T就启动了针对视频业务的vMOS标准研究项目,并于2012年参考语音MOS指标体系发布了第一个基于视频体验的VMoS指标,用于监控视频经过网络传输后的质量损失,关注点在于视频QoE的检测和问题定位。这套指标完全参考了语音MOS的定义,先定义影响因素Compression、packet-loss、rebuffering,自下而上地计算vMOS。出发点是为了发现问题,用于视频质量监控,只站在技术视角看问题,没有考虑消费者对视频体验优劣的评价是跨越视频业务的全流程,也没有站在最终消费者体验的角度去横向比较不同的分辨率带给用户的不同体验。因此也无法完整的指导运营商网络的设计和优化。
华为认为在原有vMOS的基础上,需要根据以用户体验为中心的评价体系标准,用统一的衡量标准,来评价不同网络,不同屏幕,不同场景应用下的视频体验的好坏。基于以上出发点,华为视频研究团队结合人体工程学实验,样本调研和深入技术研究,提炼出适配全场景的视频体验TOP3影响因子,即视频质量(sQaultiy),互动体验(sInteraction)和观看体验(sView)。华为基于三大核心思想,设计了视频体验衡量体系评价标准U-vMOS,使TOP3视频体验影响因子得以量化,使得视频体验标准体系实现可采集、可评估、可演进。据此,我们拟合出如下公式(其中,影响视频质量、操作体验和播放体验三个模块的主要因素如图2~4所示)。
1.2 基于U-vMOS评价体系对网络的要求
基于U-vMOS标准,对其中的各项KQI进一步分解,可以得出某一目标U-vMOS得分的条件下,网络需要提供的KPI:
基于U-vMOS 5分标准,分解出的网络要求已经大大超出当前网络的能力,我们认为,5分的标准需要依赖云/管/端革新的技术&方案才能达成。
中短期内,U-vMOS达到4分已经代表了较好的体验,我们将U-vMOS4分设置为网络优化达成的目标。
2 面向U-vMOS的移动承载网络优化方案介绍
从上一章节的介绍中我们知道,影响视频业务体验的网络要素,主要是三个:带宽(更确切的说是通量)、时延、以及丢包率。其中,丢包率往往由端到端的线路质量决定,难以通过个别网络节点的调整达到立竿见影的优化效果;通量和时延则不然。如何在当前移动承载网络的基础上,通过成本可控的优化方案,保障移动承载网的高通量和低时延,继而提升每用户的移动视频体验高质量(U-vMOS>=4),我们认为可以参考如下的策略和应对方案。
2.1 TCP加速技术
2.1.1 传统TCP的不足
互联网带宽的高速发展增催生了各类高吞吐率应用,典型如4K视频播放,普通4K视频片源的平均码率基本都在25Mbps以上,峰值码率甚至会达到50Mbps以上。虽然物理带宽能够通过扩容来满足4K视频应用的吞吐率需求,但是由于承载视频传输的TCP协议的设计局限和不足,实际传输吞吐率可能远远达不到物理带宽,TCP可能会成为高吞吐率应用的瓶颈。
TCP通过调节拥塞窗口CWND来控制数据发送的吞吐率,由于TCP并不了解应用需求和网络状态,为了避免盲目增长窗口造成网络拥塞,传统TCP协议采用比较保守的拥塞控制策略,例如Reno在拥塞避免阶段采用的AIMD策略,窗口增长采用缓和的线性方式,窗口降低采用激进的指数方式,具体如图5所示:
a) 丢包时进入快速重传和快速恢复状态,CWND减半;
b) 收到重传报文的ACK后进入拥塞避免状态,每个RTT周期CWND增加一个MSS;
以100Mbps带宽、60ms时延的网络为例,应用传统TCP技术,在吞吐率逼近100Mbps的情况下,单纯发生一次丢包,吞吐率需要经过约16.2秒才能重新恢复到丢包前的水平;如果丢包率为1/10000,那么实际吞吐率将只有23Mbps左右,远远小于物理带宽。而在真实的网络环境中,随着终端设备接入的多样化尤其是手机等无线设备的加入,网络中可能会存在更高的随机丢包率和时延抖动,类似Reno的传统TCP算法已经无法满足应用高吞吐率的需求,提出一种高效的TCP加速技术势在必行。
2.1.2 TCP加速技术演进
TCP加速技术的核心是设计高效的拥塞控制算法,在不丧失TCP公平性和友好性的前提下尽量提升TCP流的吞吐率。拥塞控制的基本思路是发送端根据从网络获得的拥塞反馈信息调整TCP的发送速率,基于根据何种拥塞反馈信息可以将TCP加速技术分为三类:基于显式信息反馈的TCP加速技术、基于隐式信息反馈的TCP加速技术和基于智能数据分析的TCP加速技术,本节将逐一分析三类技术的基本原理和优缺点。
基于显式信息反馈的TCP加速技术
部分TCP加速技术提出了利用路由器配合进行显式拥塞反馈,由路由器主动向发送端通告网络的拥塞状况,发送端据此调整发送速率。比较典型的主要有:XCP和VCP等。由于该类技术对网络设备支持的依赖程度非常高,因此协议可扩展性很差,这也是该类技术至今依然停留在理论,尚未在网络中获得大规模部署的原因。
基于隐式信息反馈的TCP加速技术
如果路由器不提供显式的拥塞指示,那么TCP只能利用传输过程中获取的反馈作为隐式拥塞指示,典型反馈信息主要分为丢包事件和往返时延,该类TCP加速技术通常根据其中一或两个维度来判定当前网络的拥塞程度,并在发送端做出相应的拥塞控制策略。
丢包事件是最能直观反映网络拥塞的行为,目前大多数TCP加速技术都选择将丢包事件作为拥塞反馈,然而,该类技术都面临一个共通的问题:对丢包事件判定不精确,无法区分拥塞丢包和随机丢包。只要发生丢包事件就根据预设参数降低窗口,这种做法会导致在随机丢包较多的网络中吞吐率很低。
与丢包时间相比,往返时延能够更加及时地反应网络拥塞,将往返时延作为拥塞反馈的TCP加速技术也有一些。该类技术的思路是:根据往返时延与网络轻载时时延的变化程度来调整窗口。该类技术所面临的问题是:时延测量的不公平性,例如网络拥塞时加入的TCP流测得的网络轻载时延偏高,这会导致该TCP流的拥塞窗口设置过大、占用过大的带宽。
由上分析可知,基于隐式信息反馈的TCP加速技术依赖于丢包事件和往返时延等信息对网络拥塞判定的精确度,无论是拥塞丢包和随机丢包的判断错误,还是轻载网络时延的判定错误,都会给TCP的拥塞控制产生负面影响,因此依靠简单的隐式拥塞信息反馈来调整TCP拥塞控制难以满足应用的高吞吐率需求。
基于智能数据分析的TCP加速技术
针对上述两类TCP加速技术的缺点,华为公司研究设计了新一代的基于智能数据分析的TCP加速技术——RACE(Rapid, Adjustable, Clever, Efficient),针对每一条TCP流收集与该流相关的来自于应用和网络等多个维度的信息,通过设计智能数据分析引擎,将来自应用的真实需求信息和来自网络的真实状态信息分析处理成智能标识拥塞控制信息,指导算法更加精确地判断网络拥塞程度。华为公司提出的RACE首次将智能数据分析技术引入TCP加速技术,克服了传统TCP加速技术对网络状况判断不准确的缺陷,真正能够做到:窗口快速增长(Rapid)、目标速率可调(Adjustable)、丢包智能甄别(Clever)和自适应调整窗口达到高通量(Efficient)。
2.1.3 典型部署方案介绍
本节我们介绍一下,采用华为新一代TCP加速技术RACE的高通量路由器(High Throughput Router),在实际部署中的常见应用场景。如下图所示,通常我们会采用HTR旁路部署的方案,该方案对现网原有业务影响小,方案可靠性高,加速性能上无性能损失。如果客户加速的流策略比较稳定,没有频繁调整的需求,可作为现网部署的首选方案。
HTR旁路部署方案:
1. 将加速设备新增链路旁路署在EPC与公网链路之间;
2. 调整上下游设备的路由策略,针对要加速的视频流量做ACL策略,让相应的需要加速的流量上下行都经过加速设备;
3. 在HTR设备上启用TCP加速功能,代理相应的视频流量,起到端到端加速的效果。
路由及引流策略:
1. 如果要针对某个网外IP内容加速,在PE和EPC/PGW上可以匹配相应IP段引流到HTR设备;
2. 如果要针对整个移动数据业务加速,在PE和EPC/PGW上以PGW的公网IP引流到HTR设备;
3. 如果要针对整个特定的用户业务加速,要求用户按固定的地址段映射公网IP,在PE和EPC/PGW上以该公网IP+端口范围作策略引流到HTR设备。
2.2 CDN下沉方案
2.2.1 背景
随着LTE在全球大规模部署,移动互联网高速发展,移动互联网流量将以每年57%的速度增长,预测2019年移动视频流量占所有移动数据流量的超过70%。这种增长主要将由用户更加偏好视频流服务,包括新闻、广告与社交媒体等在线视频内容日益普及所驱动,流量的快速增长也对移动承载网提出更高的带宽要求。
各运营商之间的竞争慢慢聚焦到用户体验的竞争,提供最佳体验的运营商才能持续获得商业成功。现阶段,移动视频宽带业务在高速发展,更高分辨率的视频(1080P和4K)逐渐普及,人们观看视频也在追求极致体验,对网络E2E时延提出了新的挑战。正是基于此,华为的CDN下沉方案将CDN内容下沉到网络各个不同位置,聚焦减少用户访问内容源的端到端时延,节省承载带宽,保障用户体验。
2.2.2 CDN下沉的多种方案
a) CDN下沉到基站
内容下沉到eNodeB,“零”距离接近用户,这种方案可最大程度节省RTT和承载带宽,但是每个基站部署CDN-Edge,面临部署成本高,维护难度大的问题;另一方面,基站覆盖的用户少、访问分散,根据Cache热点缓存的特性,CDN下沉到基站的命中率会稍低。
b) CDN下沉到EPC SGi口
内容下沉到EPC SGi出口,部署成本可控,用户访问量大,热点效应明显。然而,这个方案无法节省MBH的承载带宽,并且省干传输带来RTT时延较大(3~5ms),给体验带来了一定的影响。
c) CDN下沉到MBH
内容下沉到MBH网络,兼顾RTT时延(节省省干单向时延3-5ms、EPC单向时延4ms)、部署成本可承受(如地市PTN L2入L3节点2~7对)、节省MBH网络带宽(引流的汇聚节点到EPC之间的链路)、用户访问内容热点效应明显等特点,是综合CDN下沉成本与节省时延效益的折衷考虑结果。
3 面向U-vMOS的移动视频运维方案介绍
3.1 现状概述
最后,让我们谈谈移动承载网络运维过程中遇到的问题。随着LTE网络的快速发展,手机视频流量在移动网络中的份额逐年上升。视频业务体验对用户来说至关重要,然而传统的网络维护手段只关注网络KPI,无法感知用户的业务体验,往往会出现网络KPI很好,但用户反映体验很差的情况;同时当用户投诉时,故障现象可能早已消失,造成问题定位困难。实际上更为常见的是,最终用户为了避免麻烦、不进行任何投诉,选择直接关闭应用窗口。这在无形中造成了用户忠诚度的下降、继而带来用户流失的风险。
本章节描述针对OTT移动视频业务,如何实时监控用户体验,并在用户观看移动视频发生卡顿时,能够对移动承载网进行实时定界定位的运维方案。
3.2 方案描述
在承载网出口或Gi接口,通过分光或直通的方式部署SIG,SIG通过分析用户报文直接监控用户体验。当SIG监测到用户观看视频发生卡顿时,通告给uTraffic,uTraffic还原用户视频业务报文在承载网的传输路径,并在传输路径上部署管道IPFPM进行故障的定界定位。
用户视频卡顿监控
SIG通过观察和分析用户视频报文,判断视频质量是否发生了劣化。原理如下:
SIG实时计算获取视频流已经下载的字节数、视频播放的时间、播放器的播放码率,如果播放码率与视频已播放时间大于已经下载的字节数,则表明卡顿发生了。
网络故障定位
uTraffic接收到SIG传来的用户卡顿信息后, 向承载网设备查询用户视频报文传输的路径。 在用户视频报文的传输路径确定后,在各设备上部署IPFPM检测设备的丢包率,最终精确定位故障的设备。
IPFPM是华为公司提出的随流的性能监控系统。它通过给报文的IP头染色来提示沿路IPFPM测量点进行性能统计,不插入任何额外报文,并且具有高的精度, 能够有效监控用户业务流的性能状况。
通过此方案的部署,运营商维护人员可以在定位到故障设备后, 快速有效的进行针对性排障, 保证用户的视频体验。