CNTXJ.NET | 通信界-中国通信门户 | 通信圈 | 通信家 | 下载吧 | 说吧 | 人物 | 前瞻 | 智慧(区块链 | AI
 国际新闻 | 国内新闻 | 运营动态 | 市场动态 | 信息安全 | 通信电源 | 网络融合 | 通信测试 | 通信终端 | 通信政策
 专网通信 | 交换技术 | 视频通信 | 接入技术 | 无线通信 | 通信线缆 | 互联网络 | 数据通信 | 通信视界 | 通信前沿
 智能电网 | 虚拟现实 | 人工智能 | 自动化 | 光通信 | IT | 6G | 烽火 | FTTH | IPTV | NGN | 知本院 | 通信会展
您现在的位置: 通信界 >> AI >> 新闻正文
 
阿里公开文生图研究新进展,提出组合式的多概念定制生成方法
[ 通信界 | 静姝 | www.cntxj.net | 2023/8/3 7:23:14 ]
 

通信界 文生图在最近一年取得了显著的进步,DreamBooth 定制化生成工作,进一步证明了文生图的潜力,并且广泛引起了社区关注,相比于单概念生成,在一张图内定制多个概念是更加有趣且具有广泛应用场景(AI 影楼,AI 漫画生成....)。

相比于单概念定制生成取得的成功,阿里提出的 Cones 和 Adobe 提出的 Custom Diffusion 作为现有的多定制概念生成方法仍存在两个挑战:

  • 首先,他们需要为每一种多个概念的组合都学习单独的模型,这可能会受到以下影响:1)无法利用已有的模型,比如一个新的需要定制的多概念组包含三种概念 {A,B,C},无法从已有的 {A,B} 的定制模型中获得知识,只能重新训练。2)当需要定制的概念数量增加时,计算资源的消耗指数上升。

  • 不同的定制概念可能会互相干扰,导致最终生成时有些概念无法显示,或者概念间的属性存在混淆。当概念之间的语义相似度较高时,这种现象尤其明显(例如,同时定制一只猫和一只狗,可能生成的图片中,定制的猫混淆了狗的某些特征。)

基于此,阿里巴巴和蚂蚁集团的研究团队提出了组合式的多概念定制生成方法:Cones 2,能同时定制更多物体,且生成图片质量显著提升。

论文主页:Cone 2

https://arxiv.org/abs/2305.19327

项目主页:Cones-page

https://cones-page.github.io

该团队的前作 Cones 获得了 ICML 2023 的 oral,并且在推特获得了广泛关注。

Cones 2 优势主要体现在 3 个方面。(1)使用简单而有效的方法来表示概念,可以任意组合,复用各种训练好单概念,从而进行多定制概念生成,而无需为多概念进行任何重新训练。(2)使用空间布局作为指导,这在实践中非常容易获得,用户只需要提供一个 bounding box,即可以控制每个概念的特定位置,并同时减轻概念之间的属性混淆。(3)在一些具有挑战性的场景下也能取得令人满意的性能:进行语义相似的多定制概念的生成,如定制两只狗,并且可以交换眼镜;在概念数量上,也可以合成六个概念。

方法

1. 基于扩散模型的文本引导图像生成

扩散模型学习从正态分布噪声中逐步去噪来恢复真实的视觉内容,该过程实际上是在模拟可逆的长度为 T=1000 的马尔可夫链。在文本到图像任务中,条件扩散模型 的训练目标可以简化为重建损失:

文本嵌入 通过交叉注意力机制注入到模型 中。在推理时,网络通过迭代去噪 进行采样。

2. 残差文本嵌入表示概念

为了可以定制化生成用户需要的特定概念,模型首先需要“记住”这些概念的特征。由于改变预训练模型参数往往会导致模型的泛化性下降,Cones 2 选择针对每个特定概念学习一个合适的编辑方向。将这个方向作用于概念对应的基类的特征编码上,就可以得到定制化的结果,这个方向称为 residual token embedding。

举个例子,在使用 Stable Diffusion 生成图像“一只狗坐在海滩上”时,整个生成过程由文本经过文本编码模型得到的文本编码控制,那么只需要将“狗”对应的文本编码做合适的偏移,就可以让模型生成出定制化的“狗”。为了得到 residual token embedding,首先需要用给定的数据微调文本编码模型,在训练过程中 Cones 2 通过引入文本编码保持损失,限制微调后的文本编码器的输出和原始预训练的文本编码器的输出尽可能接近。

同样参考上面的例子,给定“一只狗坐在海滩上”作为输入,这两个文本编码器输出的文本编码,只在定制化概念对应的类别词(狗)这里差别较大,在其他词(海滩等。。。)的部分尽可能保持输出一致。结合原本的生成模型,微调后的文本编码器具有定制特定概念的能力,由于微调过程采用了文本编码保持损失的约束,这种能力可以通过计算微调过的文本编码器和原始文本编码器在类别词部分的平均差异,来得到需要的 residual token embedding:

基于上述方法得到残差表示,是可以重复使用并且即插即用的。在做多概念定制化生成的时候,只需要将每个定制概念所对应类别词的文本编码加上对应的残差项即可。

3. 通过空间布局引导多概念组合生成

交叉注意力层之间的注意力图如下 ,交叉注意力图直接影响最终生成的空间布局,多概念定制生成的图片中的一个问题是某些概念可能无法显示。为了避免这种情况,Cones 2 在希望其出现即用户通过 bounding box 指定的区域中增强目标概念的激活值。另一个问题是概念间的属性存在混淆,即生成图像中的概念可能包含其他概念的特征。

为了避免这种情况,则希望削弱每个对象出现在用户指定区域外的激活值。结合上述两种想法,Cones 2 提出了一种根据预定义布局 指导生成过程的方法。在实践中,将布局 定义为一组概念边界框,由每个概念的的指导布局 组成。在希望概念 出现的区域中将 的值设置为正值,并在与该概念无关区域中将 的值设置为负。对注意力图进行编辑。

实验

将生成结果与现有方法进行对比,从训练的计算复杂度,以及生成效果,均有显著提升。

并且在处理更多概念的生成,以及处理语义相似物体的场景下,都有着优越表现。

应用前景

多定制概念生成除了能够生成更加高质量,内容丰富的图片外,同时具有广泛的应用前景,现在大火的 ControlNet 更多是控制生成图片中的结构,多概念定制生成可以对生成的内容进行控制,使文本到图像的生成更加可控,进一步提高了文生图模型的应用价值。比如,创作者通过输入文本,通过几个定制好的角色概念,进行多格漫画生成;通过组合用户定制的自身角色概念和商家提供的多个试戴试穿的定制概念(衣服,首饰,鞋帽等等),实现多款服装的试穿体验。

 

1作者:静姝 来源:科技游乐园 编辑:顾北

 

声明:①凡本网注明“来源:通信界”的内容,版权均属于通信界,未经允许禁止转载、摘编,违者必究。经授权可转载,须保持转载文章、图像、音视频的完整性,并完整标注作者信息并注明“来源:通信界”。②凡本网注明“来源:XXX(非通信界)”的内容,均转载自其它媒体,转载目的在于传递更多行业信息,仅代表作者本人观点,与本网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。③如因内容涉及版权和其它问题,请自发布之日起30日内与本网联系,我们将在第一时间删除内容。 
热点动态
普通新闻 中信科智联亮相2023中国移动全球合作伙伴大会
普通新闻 全球首个基于Data Channel的新通话商用网络呼叫成功拨通
普通新闻 中国联通:以优质通信服务 助力“一带一路”共建繁华
普通新闻 杨杰:未来五年,智算规模复合增长率将超过50%
普通新闻 长沙电信大楼火灾调查报告发布:系未熄灭烟头引燃,20余人被问责
普通新闻 邬贺铨:生态短板掣肘5G潜能发挥,AI有望成“破局之剑”
普通新闻 工信部:加大对民营企业参与移动通信转售等业务和服务创新的支持力
普通新闻 摩尔线程亮相2023中国移动全球合作伙伴大会,全功能GPU加速云电脑体
普通新闻 看齐微软!谷歌表示将保护用户免受人工智能版权诉讼
普通新闻 联想王传东:AI能力已成为推动产业升级和生产力跃迁的利刃
普通新闻 APUS李涛:中国的AI应用 只能生长在中国的大模型之上
普通新闻 外媒:在电池竞赛中,中国如何将世界远远甩在后面
普通新闻 三星电子预计其盈利能力将再次下降
普通新闻 报告称华为5G专利全球第1 苹果排名第12
普通新闻 党中央、国务院批准,工信部职责、机构、编制调整
普通新闻 荣耀Magic Vs2系列正式发布,刷新横向大内折手机轻薄纪录
普通新闻 GSMA首席技术官:全球连接数超15亿,5G推动全行业数字化转型
普通新闻 北京联通完成全球首个F5G-A“单纤百T”现网验证,助力北京迈向万兆
普通新闻 中科曙光亮相2023中国移动全球合作伙伴大会
普通新闻 最高补贴500万元!哈尔滨市制定工业互联网专项资金使用细则
通信视界
邬贺铨:移动通信开启5G-A新周期,云网融合/算
普通对话 中兴通讯徐子阳:强基慧智,共建数智热带雨
普通对话 邬贺铨:移动通信开启5G-A新周期,云网融合
普通对话 华为轮值董事长胡厚崑:我们正努力将5G-A带
普通对话 高通中国区董事长孟樸:5G与AI结合,助力提
普通对话 雷军发布小米年度演讲:坚持做高端,拥抱大
普通对话 闻库:算网融合正值挑战与机遇并存的关键阶
普通对话 工信部副部长张云明:我国算力总规模已居世
普通对话 邬贺铨:我国互联网平台企业发展的新一轮机
普通对话 张志成:继续加强海外知识产权保护工作 为助
普通对话 吴春波:华为如何突破美国6次打压的逆境?
通信前瞻
亨通光电实践数字化工厂,“5G+光纤”助力新一
普通对话 亨通光电实践数字化工厂,“5G+光纤”助力新
普通对话 中科院钱德沛:计算与网络基础设施的全面部
普通对话 工信部赵志国:我国算力总规模居全球第二 保
普通对话 邬贺铨院士解读ChatGPT等数字技术热点
普通对话 我国北方海区运用北斗三号短报文通信服务开
普通对话 华为云Stack智能进化,三大举措赋能政企深度
普通对话 孟晚舟:“三大聚力”迎接数字化、智能化、
普通对话 物联网设备在智能工作场所技术中的作用
普通对话 软银研发出以无人机探测灾害被埋者手机信号
普通对话 AI材料可自我学习并形成“肌肉记忆”
普通对话 北斗三号卫星低能离子能谱仪载荷研制成功
普通对话 为什么Wi-Fi6将成为未来物联网的关键?
普通对话 马斯克出现在推特总部 收购应该没有悬念了
普通对话 台积电澄清:未强迫员工休假或有任何无薪假
普通对话 新一代载人运载火箭发动机研制获重大突破
推荐阅读
Copyright @ Cntxj.Net All Right Reserved 通信界 版权所有
未经书面许可,禁止转载、摘编、复制、镜像