技术小站8

网站首页 科技 > 正文

谷歌的人工智能实际上是将物体插入图像

2022-02-14 10:23:16 科技 来源:
导读 计算机比人类更难使用后期制作软件将东西真正放到场景中。它不仅需要确定物体的合适位置,还需要尝试预测目标位置的外观——它的尺度、遮挡

计算机比人类更难使用后期制作软件将东西真正放到场景中。它不仅需要确定物体的合适位置,还需要尝试预测目标位置的外观——它的尺度、遮挡、姿态、形状等等。

幸运的是,人工智能有望伸出援手。上周在NeuroIPS 2018大会上接受的一篇论文(“Context-Software Synthesis and Object Instance Placement”)中,来自首尔国立大学、加州大学默塞德分校和谷歌人工智能的研究人员描述了一种以“语义连贯”的方式将对象插入图像的系统,即令人信服。

“将对象插入符合场景语义的图像是一项具有挑战性和趣味性的任务。这项任务与许多实际应用密切相关,包括图像合成、AR和VR内容编辑以及领域随机化,”研究人员写道。“这种对象插入模型可能会促进许多图像编辑和场景分析应用。

他们的端到端框架由两个模块组成:——,一个模块决定插入的对象应该在哪里,另一个模块决定它应该是什么样子。3354,一个由两部分组成的神经网络由GANS或生成器组成,它产生样本和鉴别器,用来区分生成的样本和真实世界的样本。因为系统同时对插入图像的分布进行建模,所以它使两个模块能够相互通信和优化。

本文作者写道:“这项工作的主要技术新颖性在于构建了一个端到端的可训练神经网络,可以从新物体的联合分布中为新物体采样出合理的位置和形状。”“合成的对象实例可以用作基于GAN的方法的输入,也可以用于从现有数据集中检索最近的片段以生成新图像。”

正如他们解释的那样,在这种情况下,生成器预测一个“合理”的位置,以生成一个具有“语义连贯”的比例、姿势和形状的对象遮罩——特别是对象如何在场景中分布,以及如何自然地插入对象,使其看起来像是场景的一部分。随着时间的推移,在训练过程中,人工智能系统根据场景学习每个对象类别的不同分布——例如,在城市街道的图像中,人们经常在人行道上,汽车通常在路上。

在测试中,研究人员的模型通过插入真实形状的物体而优于基线。当图像识别器YOLOv3应用于人工智能生成的图像时,它可以检测合成的对象。79次召回。更令人信服的是,在对亚马逊土耳其机械工人的调查中,43%的人认为人工智能生成的物体是真实的。

“这表明我们的方法可以执行对象合成和插入任务,”研究人员写道。“作为我们联合建模哪里和什么的方法,它可以用来解决其他计算机视觉问题。未来有趣的任务之一是处理对象之间的遮挡。


版权说明: 本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。


标签:




热点推荐
热评文章
随机文章