CNTXJ.NET | 通信界-中国通信门户 | 通信圈 | 通信家 | 下载吧 | 说吧 | 人物 | 前瞻 | 智慧(区块链 | AI
 国际新闻 | 国内新闻 | 运营动态 | 市场动态 | 信息安全 | 通信电源 | 网络融合 | 通信测试 | 通信终端 | 通信政策
 专网通信 | 交换技术 | 视频通信 | 接入技术 | 无线通信 | 通信线缆 | 互联网络 | 数据通信 | 通信视界 | 通信前沿
 智能电网 | 虚拟现实 | 人工智能 | 自动化 | 光通信 | IT | 6G | 烽火 | FTTH | IPTV | NGN | 知本院 | 通信会展
您现在的位置: 通信界 >> 智慧 >> 新闻正文
 
Sora如何降维打击其他文生视频大模型?记者实测对比
[ 通信界 | 罗亦丹 | www.cntxj.net | 2024/2/19 9:14:15 ]
 

  OpenAI的文生视频大模型Sora已经发布两天,其冲击力依然不减。

  2月18日,新京报贝壳财经记者进行了Sora与其他文生视频大模型的对比测试,发现Sora在时间和视频生成质量上均对“同行”产生了“降维打击”:其他文生视频大模型仅能生成3至4秒的视频,而Sora生成的视频时间最多可达1分钟,且景物也更加清晰稳定、符合描述。

  不过,随着越来越多使用Sora制作的视频出现以及部分技术细节的公开,业界开始对其进行全方位审视,其中,赞扬和惊叹声不少,但Sora生成的视频也被发现存在诸多不合理之处。

  文生视频对比实测:Sora从“动图”升级到“短片”

  “一个时髦的女人走在东京的街道上,街道上充满了温暖发光的霓虹灯和生动的城市标志。她穿着一件黑色的皮夹克,一件红色的长裙,一双黑色的靴子,还带着一个黑色的钱包。她戴着太阳镜,涂着红色的口红。她自信而随意地走着。街道是潮湿和反光的,创造了一个五颜六色的灯的镜面效果。许多行人走来走去。”这是OpenAI官网介绍Sora时,出现的第一组提示词。

  在OpenAI推出Sora之前,文生视频领域的创业公司主要包括Pika、Runway等,为了验证Sora的能力,新京报贝壳财经记者将上述同样的提示词输入Pika文生视频模型,以及Runway旗下的Gen-2video文生视频模型进行了实测。

在相同提示词下,新京报贝壳财经记者使用Pika生成的视频截图。

在相同提示词下,新京报贝壳财经记者使用runway旗下Gen-2video生成的视频截图。

  OpenAI官网上Sora生成的视频。

  贝壳财经记者发现,在相同的提示词下,Pika仅能生成3秒的视频,Gen-2video则可以生成4秒的视频。其中,Pika的视频为“时髦女人”的背影,无法体现她“戴着太阳镜,涂着红色的口红”的描述,不过对于提示词中“潮湿反光的街道和五颜六色灯的镜面效果”体现得较好,但整体上视频较为模糊。

  Gen-2video则跳出了“无法输入这么多提示词”的弹窗,并根据能够输入的部分生成了一个4秒的视频,该视频相比Pika显然精细很多,也符合提示词描述的人物形象,包括“街道、人群、黑钱包”等。

  但可以发现,无论是Pika还是Gen-2video,都忽略了“一件红色的长裙”这个细节,且贝壳财经记者通过观看视频发现,这两段视频仍能看出AI生成的影子,特别是Gen-2video的人物脸部,有细微的形变,这正是AI生成视频的特点之一:难以始终保持同一人物的连贯性。

  而Sora不仅体现了提示词中的全部细节,而且还很好地保持了人物的连贯性,使得该视频几乎可以“以假乱真”。当然,如果仔细观察,可以发现该视频中人物的脚步在某几个帧会出现不自然的扭曲,以及该视频中的背景广告牌虽然酷似日文,但由于目前AI还无法直接在视频中“认识”文字,其只能生成似是而非的“日文”,这都是AI生成视频的特点之一。

  但即便如此,Sora还是用事实显现出了同其他文生视频大模型的代差。

  在谷歌和推特都有从业经历的AI创业者Gabor Cselle也发布了使用相同提示词,在其他四个文生视频模型中“复现”Sora“穿过下雪、樱花飞舞的东京街道……”的场景,并表示“其他模型达不到能和Sora比较的效果”。

  Gabor Cselle社交账号截图。

  在国内,也有不少AI从业者直观地感受到了Sora带来的冲击。

  清华大学沈阳教授团队一直聚焦AI在各个领域的应用,并也一直在使用AI模型进行文生视频的操作。2月17日,他在朋友圈发布了一条团队成员花两天制作的“半失败”AI视频,并表示“从这里可以看出和Sora的差距,我让她暂时放弃这个作品,等算法升级再重做一下。”

  对于Sora出现后,使用AI制作视频的工作能否继续,沈阳回复贝壳财经记者“慢慢弄,往前挪呗”。

  理解物理世界颠覆影视、游戏行业 Sora是“通用世界模型”吗?

  为何Sora能够在视频生成的质量上明显领先同业产品?OpenAI在官方网站上表示,Sora是能够理解和模拟现实世界的模型的基础,相信这一能力将是实现通用人工智能的重要里程碑。不过,Sora还存在很多不完善之处,仍然处于世界模型研究应用的初期阶段。

  什么是世界模型?贝壳财经了解到,实际上runway公司在去年12月就提出过要开发通用世界模型(General World Model),用其旗下的Gen-2模型来模拟整个世界,“我们相信,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。”

  从效果上看,目前OpenAI已经通过Sora部分做到了这一点,因为只有理解物理世界的运行法则,文生视频模型才能创造出更加逼真的视频。英伟达高级科学家Jim Fan就对此表示,Sora是一个数据驱动的物理引擎,“它是对许多世界的模拟,无论是真实的,还是虚构的。该模拟器通过去噪和梯度学习方式,学习了复杂的渲染、直观的物理、长期推理和语义理解。”

  而理解现实世界的物理法则,也正是通往通用人工智能这一“终极目标”的必经之路。

  对此,不少科技圈名人都发出了惊叹,马斯克直接在社交平台上发布短评“GG世界”(GG是网络游戏的用语之一,原指游戏结束时玩家互相致意,后引申为“游戏结束”)。

  360公司董事长周鸿祎则直接在朋友圈发文称,一旦AI能够接上摄像头,观看并理解世界上所有的电影,它对世界的理解能力将远远超过仅仅通过文字学习所能达到的水平。在这种情况下,实现通用人工智能不再是遥不可及的梦想。周鸿祎甚至预测,这一天可能在一两年内就会到来,而不是十年或二十年。

  在现实层面,有更多人担心文生视频大模型可能直接冲击影视和游戏行业。美国旧金山早期投资人Zak Kukoff预测,在5年内,一个不到5人的团队将可能用文生视频模型制作出一部票房收入超过5000万美元的电影。

  值得注意的是,日前大火的游戏《幻兽帕鲁》的开发团队就仅有4人,有许多人质疑该团队使用了AI生成技术制作游戏角色,以节省成本。而根据OpenAI 发布的最新Sora技术报告,Sora能够模拟视频游戏的数字化过程,Sora能在控制 Minecraft 游戏角色进行基本操作的同时,高质量动态渲染游戏世界。这意味着,个人开发制作游戏的门槛可能会被进一步降低。

  前阿里巴巴副总裁,Lepton AI公司创始人贾扬清则直接评价Sora“真的非常牛”,他表示Sora的问世可能会给对作OpenAI的公司带来一波被大厂FOMO(害怕错过机会而导致的收购)收购的机会。贾扬清预测,大模型市场长期仍将呈现闭源寡头的格局,开源大模型仍然需要一段时间才能追赶上,而从算法小厂的角度来看,要么在算法上与OpenAI媲美,要么深耕垂直领域的应用,要么选择开源道路;最后,基础设施的需求将继续猛增。

 

1作者:罗亦丹 来源:新京报 编辑:顾北

 

声明:①凡本网注明“来源:通信界”的内容,版权均属于通信界,未经允许禁止转载、摘编,违者必究。经授权可转载,须保持转载文章、图像、音视频的完整性,并完整标注作者信息并注明“来源:通信界”。②凡本网注明“来源:XXX(非通信界)”的内容,均转载自其它媒体,转载目的在于传递更多行业信息,仅代表作者本人观点,与本网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。③如因内容涉及版权和其它问题,请自发布之日起30日内与本网联系,我们将在第一时间删除内容。 
热点动态
普通新闻 OpenAI甩出AI模型Sora,拍大片就一句话的事儿,谁最害怕?
普通新闻 Sora为何出道即碾压主流AI视频模型:文生视频最长纪录 对世界有全面
普通新闻 世人惊呼Sora诞生:现实不存在了!多家A股公司积极布局视频生成模型
普通新闻 Sora如何降维打击其他文生视频大模型?记者实测对比
普通新闻 30年全球半导体建厂洞察:美国需736天,比全球平均值多8%
普通新闻 全球首款透明屏PC?联想将在MWC展示新款AI PC
普通新闻 AMD将发锐龙8000GE系列APU 频率功耗均降低
普通新闻 iPhoneSE4或2025年推出 造型类似iPhone14
普通新闻 曝魅族21PRO已经正式完成测试将于下个月开启预热
普通新闻 外媒:美国政府考虑为英特尔提供超过100亿美元补贴
普通新闻 国家绿色发展基金领投,美克生能源完成D轮融资
普通新闻 周鸿祎:Sora意味着AGI实现将从10年缩短到1年
普通新闻 “手写再见,智能你好” 一文读懂AI商务速记
普通新闻 国货之光!FFALCON雷鸟电视及显示器新品,颜值与实力并存
普通新闻 FFALCON雷鸟2024新品发布会揭秘:MiniLED与千级背光分区如何重塑电
普通新闻 AI商务速记,引领高效沟通新时代
普通新闻 中国移动联合华为,全球首条 5G-A 车联网全要素验证示范线路开通
普通新闻 华为全年研发投入1621亿元!中国第一 世界第五
普通新闻 台积电耗时36年 成全球最大半导体制造商
普通新闻 分析师:忘记FAANG和Magnificent Seven 美股将由AI 5来主导
通信视界
高通CEO安蒙:生成式AI走向终端,将带来最大智
普通对话 高通CEO安蒙:生成式AI走向终端,将带来最大
普通对话 李彦宏:不断地重复开发基础大模型是对社会
普通对话 中兴通讯徐子阳:强基慧智,共建数智热带雨
普通对话 邬贺铨:移动通信开启5G-A新周期,云网融合
普通对话 华为轮值董事长胡厚崑:我们正努力将5G-A带
普通对话 高通中国区董事长孟樸:5G与AI结合,助力提
普通对话 雷军发布小米年度演讲:坚持做高端,拥抱大
普通对话 闻库:算网融合正值挑战与机遇并存的关键阶
普通对话 工信部副部长张云明:我国算力总规模已居世
普通对话 邬贺铨:我国互联网平台企业发展的新一轮机
通信前瞻
亨通光电实践数字化工厂,“5G+光纤”助力新一
普通对话 亨通光电实践数字化工厂,“5G+光纤”助力新
普通对话 中科院钱德沛:计算与网络基础设施的全面部
普通对话 工信部赵志国:我国算力总规模居全球第二 保
普通对话 邬贺铨院士解读ChatGPT等数字技术热点
普通对话 我国北方海区运用北斗三号短报文通信服务开
普通对话 华为云Stack智能进化,三大举措赋能政企深度
普通对话 孟晚舟:“三大聚力”迎接数字化、智能化、
普通对话 物联网设备在智能工作场所技术中的作用
普通对话 软银研发出以无人机探测灾害被埋者手机信号
普通对话 AI材料可自我学习并形成“肌肉记忆”
普通对话 北斗三号卫星低能离子能谱仪载荷研制成功
普通对话 为什么Wi-Fi6将成为未来物联网的关键?
普通对话 马斯克出现在推特总部 收购应该没有悬念了
普通对话 台积电澄清:未强迫员工休假或有任何无薪假
普通对话 新一代载人运载火箭发动机研制获重大突破
推荐阅读
Copyright @ Cntxj.Net All Right Reserved 通信界 版权所有
未经书面许可,禁止转载、摘编、复制、镜像