技术小站8

网站首页 互联网 > 正文

计算机系统预测物体对物理力的反应

2021-11-03 10:12:15 互联网 来源:
导读 乔希特南鲍姆是麻省理工学院的大脑和认知科学教授,他在大脑、思维和机器中心指导智力发展研究。该中心是麻省理工学院的一个多大学、多学科

乔希特南鲍姆是麻省理工学院的大脑和认知科学教授,他在大脑、思维和机器中心指导智力发展研究。该中心是麻省理工学院的一个多大学、多学科项目,旨在解释和复制人类智能。

在今年的神经信息处理系统会议上介绍他们的工作时,特南鲍姆和他的一名学生吴佳俊是四篇论文的合著者,这些论文研究了智能主体在世界导航中的基本认知能力:识别不同的物体并推断它们对物理力的反应。

通过建立开始接近这些能力的计算机系统,研究人员相信它们可以帮助回答人类在发展的哪个阶段使用哪些信息处理资源的问题。在这个过程中,研究人员也可能为机器人视觉系统产生一些有用的见解。

Tenbaum说:“这里的共同主题是真正学会感知物理。首先,我们看到物体的所有三维形状,以及场景中的许多物体,以及它们的物理属性,如质量和摩擦力,然后推断这些物体将如何随时间移动。佳骏的四篇论文都是针对这整个空间.我们可以一起开始制造能够捕捉到越来越多的人对物质世界的基本认识的机器。”

其中,三篇论文涉及从视觉和听觉数据推断物体的物理结构。第四种方法是根据这些数据预测对象的行为。

另一件结合了所有四篇论文的事情是它们不同寻常的机器学习方法,在这种方法中,计算机通过分析大量的训练数据来学习执行计算任务。在典型的机器学习系统中,训练数据被标记为:人类分析师将识别视觉场景中的对象或转录口语句子的单词。该系统试图知道数据的哪些特征与哪些标签相关,并根据它对以前没有见过的数据的标记程度进行判断。

在吴和特南鲍姆的新论文中,该系统被训练来推断世界的物理模型——例如,主要隐藏在视野之外的物体的三维形状。但是,它向后工作,使用模型重新编译输入数据,并根据重建数据与原始数据的匹配程度来判断其性能。

例如,使用视觉图像来构建场景中对象的三维模型需要剥离任何被遮挡的对象;过滤掉令人困惑的视觉纹理、反射和阴影;并推断出不可见表面的形状。然而,一旦吴和特南鲍姆的系统建立了这样一个模型,它就在空间中旋转它,并添加视觉纹理,直到它可以近似输入数据。

事实上,研究人员的四篇论文中有两篇涉及从视觉数据中推断三维模型的复杂问题。在这些论文中,麻省理工学院的其他四位研究人员也加入了他们的行列,其中包括电气工程和计算机科学的William Freeman Perkins教授,以及来自上海科技大学DeepMind和上海交通大学的同事。

研究人员的系统基于麻省理工学院神经科学家大卫马尔(David Marr)颇具影响力的理论,他于1980年不幸去世,享年35岁。让我们假设,当解释一个视觉场景时,大脑首先创建他所谓的2.5维草图,它包含对象——观众只面对的对象表面的表示。然后,根据2.5D草图——不是关于场景的原始视觉信息——大脑推断出物体的完整三维形状。

吴硕说:“这两个问题很难解决,但有很好的解决办法。“你可以一次做一个,这样就不用同时处理这两个问题,这就更难了。”

吴和他的同事的系统需要训练数据,包括视觉图像和三维模型对象,以及图像描绘。构建真实照片中描绘的对象的精确3D模型将花费大量时间。因此,最初,研究人员使用合成数据来训练他们的系统,其中视觉图像是从3D模型而不是3D模型生成的,反之亦然。创建数据的过程就像创建一部计算机动画电影。

然而,一旦系统在合成数据中训练,它就可以用真实数据进行微调。这是因为其最终性能标准是其重建输入数据的准确性。它还在建立三维模型,但它们不需要用人类建立的模型来评估性能。

在评估他们的系统时,研究人员使用了一种叫做“交叉结合”的方法,这在这个领域非常普遍。从这一点来看,他们的制度优于其前身。然而,给定的相交比例分数为3D模型的平滑度和形状留下了大量的局部变化空间。因此,吴和他的同事还对模型对源图像的保真度进行了定性研究。在这项研究的参与者中,74%的人更喜欢新系统的重建,而不是其前身。

所有的堕落。

在吴和特南鲍姆的另一篇论文中,他们再次联合弗里曼和麻省理工学院、剑桥大学和上海科技大学的研究人员,训练了一个系统来分析废弃物体的音频记录,从而推断物体的形状、成分和下落高度。再一次,该系统被训练产生物体的抽象表示,反过来,当物体从某个高度下降时,它被用来合成声音。根据合成声音与源声音的相似度,判断系统的性能。

最后,在他们的第四篇论文中,来自牛津大学的吴、Teenbaum、Freeman、DeepMind和同事描述了一个系统,该系统开始模拟人类对世界上物体上的物理力的直观理解。本文从以前的论文中得出一个结论:它假设系统已经推导出物体的三维形状。

这些形状很简单。

:球和立方体。研究人员训练他们的系统来执行两项任务。首先是估计在台球桌上移动的球的速度,并在此基础上预测它们在碰撞后的行为。第二个是分析一个堆叠立方体的静态图像,并确定它们是否会坠落,如果会,立方体将降落在哪里。

吴开发了一种他称为场景XML的表示语言,它可以定量地描述物体在视觉场景中的相对位置。系统首先学会用该语言描述输入数据..然后,它将这种描述提供给一个称为物理引擎的东西,该引擎模拟作用在所表示的物体上的物理力。物理引擎是两种计算机动画的主要组成部分,它们产生服装、坠物等的运动,以及用于大规模物理模拟的科学计算。

在物理引擎预测了球和盒子的运动后,这些信息被输入到图形引擎中,其输出与源图像相比也是如此。就像视觉识别的工作一样,研究人员在用真实数据对合成数据进行细化之前,对他们的系统进行培训。

在测试中,研究人员的系统再次超越了其前辈。事实上,在一些涉及台球的测试中,它经常优于人类观察者。


版权说明: 本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。


标签:




热点推荐
热评文章
随机文章