微软Obj-GAN可将文字转换成复杂的场景

hejiahui 2019-6-26 12:49

正如任何热心的读者都会做到的那样，人类只要精心挑选几个词，就能想象出复杂的场景。然而，人工智能系统在将文本描述转换成图片的任务上遇到了困难。现在，来自微软和JD人工智能实验室的研究人员提出了一种基于对象驱动的专注生成对抗网络（Obj-GAN）的新模型，该模型能够基于一个简短的短语或描述性文本句子生成相对复杂的场景。

Obj-GAN的生成器识别描述性单词和对象级信息，逐步细化合成图像，在图像细节和成分元素之间的关系方面改进了之前的前沿模型。

下面是运用不一样人工智能技术生成的真实图片和文本描述图像的比较。研究结果表明，随着描述的复杂化，Obj-GAN与其他GANs相比，越来越能够将文本转换成逼真的图像。

通过测验Obj-GAN的泛化能力，研究人员发现，该模型会根据在现实世界中没有多大意义的文本输入生成物理或关系不合理的图像。例如：

从文本生成图像的一个困难是，如何让人工智能系统理解场景中多个对象之间的关系。以前的方式运用图像描述对，它们仅为单个对象提供粗粒度的信号，因此即使是这种类型的最佳模型也难以生成包含以合理配置排列的多个对象的图像。

为了搞定这个问题，研究人员提出了一种新的目标驱动注意力机制，将图像生成分为两个步骤：

首先，研究人员运用seq2seq关心模型，将文本转换为语义布局，比如边框和形状。

然后，一个多级注意力图像生成器在上述布局的基础上创建一个低辨别率的图像，通过关心最相关的单词和预先生成的类标签，在不一样区域细化细节。研究人员还规划了分段和对象分类器，以确定合成的图像是否与文本描述和预先生成的布局匹配。

在他们的实验中，研究人员发现Obj-GAN在各种COCO基准测验任务上优于之前的SOTA方式，使Inception的分数提升了27%。

微软Obj-GAN可将文字转换成复杂的场景