5月2日,在央视新闻频道的特别报道中,虚拟主持人“康晓辉”与央视记者江凯共同主持《直播长江》安徽篇,并在现场进行实时互动。
屏幕上这位让观众“似曾相识”的虚拟主持人——“康晓辉”,他的形象是基于央视主持人康辉的外形,通过相芯科技FaceUnity的虚拟形象生成(P2A)技术创建的,并通过虚拟形象驱动技术实现实时驱动。而他的声音是通过科大讯飞旗下的讯飞智声平台的AI语音合成技术对康辉老师的声音进行合成模拟的。此次相芯科技和科大讯飞联手打造的虚拟主持人,让观众们能闻其声,也见其人。
虚拟主持人的形象是怎么创建的?
一张照片就够了
虚拟主持人的,创建过程比所有人想象的都要简单,相芯科技仅使用了一张央视主持人康辉的照片,通过相芯科技的P2A(Photo-to-Avatar)技术,直接生成了全动态的虚拟主持人“康晓辉”。这项技术打破了人们以往对虚拟形象技术需要特殊硬件设备和高昂成本的距离感,而是只需普通摄像头和一张自拍,便可在97%的Android机型、iOS平台、PC端实现与好莱坞CG特效媲美的效果。
也就是说,普通用户在自己的手机里就能创建自己的虚拟形象。在生成3D虚拟形象后,还能根据用户的实际需求,对虚拟形象的服装、造型、环境光线、背景等进行个性化自定义,并提供真人版和卡通版两种风格。
虚拟主持人的实时驱动
从新闻画面里可以了解到,虚拟主持人“康晓辉”在播报内容的过程中,能做出和真人一样的口型、表情等变化,头部也能做出点头、摇头等一系列动作,这些并不是提前做好的动画,而是可以实时操控的。这个实时驱动就是通过相芯科技的虚拟形象驱动技术实现的。
相芯科技通过智能人脸检测,精确捕捉面部肌肉运动节点并标记特征点(眼睛、口鼻、眉毛、面部轮廓等),获取面部表情系数并将表情同步至3D虚拟形象面部,从而驱动3D虚拟形象。在直播期间,工作人员通过笔记本上的摄像头,拍摄他的视频影像,在屏幕上的虚拟主持人就能实时逼真地还原工作人员做出的表情动作。这项技术同样只需要普通摄像头就能实现。
未来,人人都有自己的虚拟形象
未来,人们在社交网络上不再满足于用一串字符、一个ID、一张图片诠释自己,而希望用黑科技创造出一个说话、长相、甚至行为与本人高度一致的虚拟形象。而随着技术的不断推进,虚拟形象的创建已经不再需要依赖专业的硬件设施和高昂的成本,普通用户在手机上就可以轻松实现。相芯科技的虚拟形象技术已在视频社交、虚拟偶像、游戏等泛娱乐领域得到广泛应用,也在医疗、在线教育、智能商业领域开始崭露头角。相芯科技相信,在未来,每个人都将拥有这种实时、互动、智能的虚拟形象,作为自己在虚拟世界的化身,成为自己专属的数字资产。