导言
2013年开年,如果让视频行业业内人士提名当前视频行业内最热的剧集,《纸牌屋 (House Of Cards)》一定会榜上有名。该剧一经发布,立刻在全球引起热烈讨论,视频行业关注的重点是:
* 制片方是一匹黑马,既不是电视台,也不是传统的电影公司,而是Netflix - 北美最大的付费视频订阅网站;
* Netflix宣称,《纸牌屋》是其大数据分析的第一次战略应用;
* 整部剧集是Netflix一次性在网站发布,供订阅者观看,完全颠覆了传统的剧集发布(每周一集)的模式。Netflix之所以有底气这样做,是因为其基于3100万订阅用户(北美)的收视行为,通过大数据分析,发现了如下规律:
* 热播三要素:凯文.史派西;大卫.芬奇和BBC出品三者结合,就可以吸引大量用户订购;
* 收视行为模式变更:越来越多的人不再像30年前那样,在固定晚上的固定时刻守在电视机前,等着收看电视剧的最新剧集,而是“攒”起来,直到整季剧情全部播放完毕之后,才选一个自己方便的时间段和地点,在方便的设备,多数是网络设备,如电脑、iPad上一次性观看。
* 这应该是历史上大数据技术在视频行业里首次颠覆性的应用。在Netflix之后,Amazon也不甘人后,开始了通过利用大数据技术,制作自制剧的过程。
从国内视频行业来看,2013年最为火爆的关键词就是:大数据,OTT,多屏,也有人声称2013年是“大数据元年”。似乎一夜之间,发言时不提到“大数据”就落伍了。
那么大数据到底是什么,它能够给视频行业带来哪些变化,笔者将在下文尝试对此进行初步的分析和描述。
大数据简介
伴随着云计算的持续高热,大数据也成为ICT行业的必备词汇。它究竟为何方神圣,具备哪些特点,下文将尝试阐述。
大数据定义
对于“大数据”(Big Data),业内并没有统一的定义,更多代表了一种新的思维方式,商业机会,未来趋势,其核心是“数据化”。
研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
而最近最为经典的著作《大数据时代》(维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写)中,提到了进入大数据时代最大的思维转变是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说更多关注知道“是什么”,而不仅仅知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
大数据的3个“V”,或者说特点有三个层面,业界将其归纳为3个“V” - Volume,Variety,Velocity:第一,数据体量巨大。从TB级别,跃升到PB级别。第二,数据类型繁多。互联网常提到的网络日志、视频、图片、地理位置信息等等。第三,处理速度快,即吸入、处理和产生价值的快速度,最后这一点也是和传统的数据挖掘技术有着本质的不同。这三者缺一不可,综合在一起才能称之为“大数据”。
对于其他一些文章中提到的第四个V(Value或Veracity),笔者并未在本文中讨论。
大数据处理
为了应对大数据的特性,在数据的处理方式中,必然会具备不同的手段和特征,同时这些特征会与大数据的特性相对应:
数据存储(Volume and Variety)
所谓数据存储,并不是指要关注底层存储细节,只需要数据存储和读取方便快捷即可。为了更好的处理海量数据的存储,首先要了解多样性中的一个分类:结构化和非结构化的数据。事实上信息里的“结构”是永远存在的,只不过结构尚未被发现,或结构变化无定(半结构化或多结构化),或者结构存在但机器却处理不了。就像最典型的非结构化数据—文本,它有语言学意义上的结构(语法和语义),又有叙事意义上的结构(三段式、先破后立等),还具有结构化的元数据(作者、标题、发布时间等),但文本一直是非结构化数据的典型。
对于非结构化数据,文件系统是主流的存储选择,但是在存取、索引以及元数据管理上不是最优。而结构化数据主要依靠关系型数据库,主要问题是结构变化时太折腾,当数据在TB级是也太慢。NoSQL数据库应时而生,一是能支持灵活的结构(schema)和非结构化数据,二是针对大数据体量可扩展性更好。同时,文件系统也得到了发展,与对象存储相映生辉,不仅在效率上提升(如Facebook Haystack对小图片文件),也能更好地支持管理和分析(如支持SQL-like语言来操作)。
数据处理(Velocity)
大数据的处理,应用传统的数据处理方式已然捉襟见肘,需要新的技术以有效的处理海量的数据,目前业内最常用的分布式并行处理框架 – Hadoop就是其中的代表。数据处理又可以分为两个阶段:
数据准备,数据处理前会有大量的时间做数据准备(到达80%),涉及到抽取、清洗、转换和集成
数据计算,对于完成准备的数据,数据计算可以通过“分而治之”的手段描述出相关数据的特征。事实上Hadoop的设计宗旨就是基于此。
在云计算和大数据大行其道的今天,Hadoop及其相关技术起到了非常重要的作用,是这个时代不容忽视的一个技术平台。事实上,由于其开源、低成本和和前所未有的扩展性,Hadoop正成为新一代的数据处理平台。
Hadoop是基于Java语言构建的一套分布式数据处理框架, 框架中最核心的设计就是:MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。
MapReduce从它名字上来看就大致可以看出个缘由,两个动词Map和Reduce,“Map(展开)”就是将一个任务分解成为多个任务,“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。
大数据价值
通过大数据分析掘金,发现价值,这是大数据应用的最重要目标:寻找相关性,通过对历史的分析,辅助对未来的预测。
相关性不是因果,相关搞成了因果,差不多和“迷信”就没有区别了。商业应用上,其实不太需要拼命挖掘因果。相关性是因果的前提,但是不等于因果。
大数据寻求的是海量数据,即全样本。全样本和抽样显然是不同的。过去的研究,由于操作性的关系,很难做到全样本,需要去抽样。大数据首先不是抽样,它获得的数据是全体样本数据,其次它不是在让用户回答问题,而是实打实地去获取用户的“行为”。最重要的一点,大数据分析和抽样分析的核心区别在于:前者是动态的,后者是静态的。一个随机抽样所形成的结论,其实是静态的,它只能说明在做那次调研时的一些相关性。当有新的用户(样本)加入时,很难再说明过去的相关性是否能够成立 — 除非你能找到真正的排除了各种隐形变量后的因果关系。但大数据的分析却是动态的,每秒都有可能产生一个新的结论。
大数据+视频 = 模式创新
笔者认为:大数据时代,视频行业的业务型态不会有大的变化,整个产业链的合作模式将会出现新的变化,产业链中的上下游界限将会变得模糊,重新洗牌的机会出现。
视频行业产业链
图 1 视频行业产业链构成
目前国内,整个视频产业链,可以大致认为由下列角色构成:
内容制作:视频内容的生产者,例如工作室,传媒公司、各大电视台等等,以及互联网UGC,和最近两年兴起的视频网站自制内容;
内容集成:视频内容的集成和销售者,例如各大电视台、视频网站等等;
内容分发:视频内容的传播者,例如各大网络运营商(包括有线运营商),通过有线,IPTV,OTT等方式传播;
用户:视频内容的消费者,通过多屏和在线,实现“随时、随地、随心”的“互动”和“个性化”视频体验,而不再是传统的“观看”
广告主:传统电视台的“金主”,在新的环境下,广告投放策略在逐渐由粗放的大面积覆盖转向更“精确”和“定向”营销
第三方机构:典型机构如Nielsen,多年专业收视率统计机构(抽样调查方式),最近开始引入twitter的社交网络信息综合评价视频热度
内容监管:内容消费的监督者,确保内容合法、有效等,例如国家新闻广播电影电视总局。
大数据给视频行业带来的影响
首先,在视频行业可能包含大数据的领域包括:
用户行为和反馈:目前全国有1.5亿有线数字电视用户,2000万IPTV用户,4亿多网络视频用户,数亿智能终端。如果将其收视行为和反馈都采集下来并进行分析,其体量必然十分巨大,理所当然是大数据的范畴,非常适合用于提供个性化服务,如相关推荐,定向广告;同时结合社交网络中的海量信息分析和引导,还可以用于内容制作和推广,票房预测,收视率统计和预测
内容分析和监管:国内目前每年有上万集电视剧投放,近十万小时电视节目上线和上千部电影进入市场。对上述内容的健康监管也是需要重点考虑大数据的应用。尤其是从“数字化”到“数据化”的转变,通过图像和语音识别,使得关注点不再仅仅是视频内容本身,而是其中蕴含的“信息”,从而挖掘其中“数据”带来的“价值”;另外,传统针对“内容”的监管是建立在单向传播的基础上,而结合用户行为,社交网络,甚至位置信息的新一代“舆情监控和引导”才是符合现在需求的。
网络优化:视频在网络中传播,尤其是随着移动互联网的飞速发展,经常会发生拥塞或者对网络传输能力带来巨大的冲击。基于历史数据,预先规划网络路由也是大数据和SDN相结合的应用型态。
大数据对视频行业的可能影响包括:
内容:上下游角色的融合
伴随着大数据分析能力的普及,产业链中的不同角色的融合变成了趋势,自制剧被视为提高收视、降低版权费用的必由之路。目前看来,笔者认为有两种趋势:
类似于Netflix的OTT视频网站,他们掌握了大量的用户数据,以此为基础,自己投资生产内容;
内容生产的众筹,视频行业的参与者,通过对未来趋势的预测,打通潜在订阅者和创作者(编剧/导演/演员)的通道,实现内容制作的成本/收益/风险在参与者中共同分担。
监管:全媒体内容监管
内容监管一向是我国文化产业的基本政策,针对海量内容,实现全媒体的内容监控一直是个难题。随着大数据技术的应用,视频内容的采集和分析成为可能,模式识别/机器学习等大数据技术的延伸能够有效的降低内容监管的人力要求和可靠程度;
网络:智能优化的网络传输
伴随着SDN在网络中的开始普及,利用大数据分析网络的历史利用数据,可以有效的预测网络中拥塞节点和时间点的出现和概率,提升用户体验。可以认为未来的视频分发者的网络越智能,他/她才会更受产业上游的青睐。
广告主:效果是核心,营销是重点
广告业一直有一种说法:“我们知道至少浪费了一半的预算,但不知道是哪一半”,这是典型在单向传播时代的情况。而在现在,通过用户行为分析,已经可以做到“定向广告”;更为重要的是,更多的广告目的不是“品牌宣传”,而是“营销”,这时基于用户行为分析的“精确营销”能够帮助提高购买行为转化率,更受到广告主的欢迎
第三方机构:不能再仅仅依靠采样数据
一直以来,尼尔森是电视节目收视率的权威机构——它能统计美国2.5万户家庭的收视行为。虽然近年来尼尔森的影响力日渐式微,但是它仍然是一个权威的信息渠道:它能统计出通过传统电视机播放的节目的收视率。但是在这个OTT和多屏的时代,人们通过更多电视之外的终端,收看非直播类内容,同时在社交网络(如twitter)上分享着看法。这些信息对于内容的传播效果评估非常重要,同时对于广告主也非常重要。最终,nielson宣布和twitter展开合作,以便更全面的开展收视调查。
大数据在视频行业的应用
大数据在视频行业还在初期应用阶段,目前还集中在互联网视频领域
推荐引擎
目前相对最成熟的应用,netflix据称75%的观看来自推荐,其个性化和推荐算法也曾获得大奖,而国内视频网站也都会有相关推荐。虽然算法各异,目的只有一个,通过推荐与用户相关的内容,提高用户观看时长和黏度。
收视情况分析
Nielson与twitter合作的收视调查,优酷土豆的“优酷指数”逐步演进为“中国网络视频指数”,“数据邦”基于微博粉丝行为的收视热点分析,这些都是比较好的应用尝试
内容制作
本文开头提到《纸牌屋》的故事现在广为人知,“大数据”确实起到重要的作用,但在一定时期内,“人”仍然应该是主要因素。同样,已经出现通过“大数据”预测票房,而减少前期制作风险的案例,也还在非常早期应用
定向广告
“定向广告”和“精确营销”已经提了很多年,但在视频领域还在初期阶段,笔者目前还没见到成熟应用。
音视频内容分析
通过音频和视频识别技术,将内容的“数字化”转为“数据化”,可检索,可分析,便于后续价值挖掘。目前还只是在专业领域应用,如广告插播侦测,内容监看
目前,“大数据”在各个行业,尤其是互联网行业,开始发挥出重要的作用,经典例子如google预测流感,机票价格预测,DNA排序等等。“大数据”自身也在不断发展,也许若干年后,我们会认为现在的“大”是如此的“小”,就像现在我们回首20多年前PC硬件配置一样。“大数据”的核心是一种尊重“数据”的思维,最重要的价值是是对于未来的预测!
在视频行业,大数据才刚刚开始崭露头角,作用和应用还需要进一步的发掘, 会随着互联网与视频这个传统行业的结合而发挥重要作用!与此同时,笔者认为,我们相信大数据的价值,但不要迷信,盲目跟风,套用“大数据”概念;而是应该从积累数据,整理数据,分析数据开始,逐步根据视频行业的特点和需求挖掘出真正的“金矿”!
本节的最后,借用《大数据时代》的话:“大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,一边等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本!”
爱立信的价值
爱立信 - 视频领域领导者
爱立信公司成立于1896年,是目前全球最大的通信设备和应用服务供应商,总部位于瑞典的斯德哥尔摩。爱立信公司提供通信网络、电信服务和多媒体解决方案,帮助世界各地的人们更加便捷地沟通。爱立信提供的网络承载着全球40%以上的移动业务;爱立信为运营商提供支持的网络正在为超过25亿用户提供服务。
爱立信的电视解决方案事业部业务遍及全球,在英国、美国、中国等地设有研发机构。通过不断的技术研发,业务拓展,和一些重要的并购,如Tandberg Television(视频压缩,互动电视后台),Hyc TV(视频产业咨询),Technicolor(广播管理服务),微软Mediaroom(全球IPTV市场份额第一),Redbee(媒体服务提供),爱立信已经成为电视和媒体(TV&Media)领域领导者,能够为业内提供完整的端到端整体解决方案和服务。
爱立信 – 端到端解决方案
爱立信的端到端解决方案主要包含如下组件:
视频压缩:业内最领先的视频压缩产品
内容管理:以CMS为核心的方案,工作流调度,面向新媒体需求
多屏业务管理平台:面向多屏时代需求,统一的后台管理和多屏门户方案
媒体分发网络(MDN):满足OTT需求,统一面向移动和固定网络的方案
爱立信 – 客户参考案例
爱立信在全球有超过2000多个视频行业客户案例,在国内与CCTV,中国电信,各地有线网络均已有多年合作。
[1] [2] 下一页