迅维网

微软Obj-GAN可将文字转换成复杂的场景

hejiahui 2019-6-26 12:49

正如任何热心的读者都会做到的那样,人类只要精心挑选几个词,就能想象出复杂的场景。然而,人工智能系统在将文本描述转换成图片的任务上遇到了困难。现在,来自微软和JD人工智能实验室的研究人员提出了一种基于对象驱动的专注生成对抗网络(Obj-GAN)的新模型,该模型能够基于一个简短的短语或描述性文本句子生成相对复杂的场景。

Obj-GAN的生成器识别描述性单词和对象级信息,逐步细化合成图像,在图像细节和成分元素之间的关系方面改进了之前的前沿模型。

下面是运用不一样人工智能技术生成的真实图片和文本描述图像的比较。研究结果表明,随着描述的复杂化,Obj-GAN与其他GANs相比,越来越能够将文本转换成逼真的图像。



通过测验Obj-GAN的泛化能力,研究人员发现,该模型会根据在现实世界中没有多大意义的文本输入生成物理或关系不合理的图像。例如:


从文本生成图像的一个困难是,如何让人工智能系统理解场景中多个对象之间的关系。以前的方式运用图像描述对,它们仅为单个对象提供粗粒度的信号,因此即使是这种类型的最佳模型也难以生成包含以合理配置排列的多个对象的图像。

为了搞定这个问题,研究人员提出了一种新的目标驱动注意力机制,将图像生成分为两个步骤:

首先,研究人员运用seq2seq关心模型,将文本转换为语义布局,比如边框和形状。

然后,一个多级注意力图像生成器在上述布局的基础上创建一个低辨别率的图像,通过关心最相关的单词和预先生成的类标签,在不一样区域细化细节。研究人员还规划了分段和对象分类器,以确定合成的图像是否与文本描述和预先生成的布局匹配。

在他们的实验中,研究人员发现Obj-GAN在各种COCO基准测验任务上优于之前的SOTA方式,使Inception的分数提升了27%。

微软Obj-GAN可将文字转换成复杂的场景

该论文通过对抗性训练,实现了基于对象驱动的文本到图像的合成。Obj-GAN模型和代码已经在GitHub上开源。
本文转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容! [声明] 本站文章版权归原作者所有,内容为作者个人观点,本站只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权!

雷人

握手

鲜花

鸡蛋

路过
收藏

最新评论

发表评论

登录 后可参与评论
关闭

站长提醒 上一条 /1 下一条

返回顶部
附近
店铺
微信扫码查看附近店铺
维修
报价
扫码查看手机版报价
信号元
件查询
点位图


芯片搜索