看到世界更像人类的机器

计算机视觉系统有时会推断出面对常识的场景。例如,如果机器人正在处理餐桌的场景,它可能会完全忽略BO

计算机视觉系统有时会推断出面对常识的场景。例如,如果机器人正在处理餐桌的场景,它可能会完全忽略任何人类观察者都可以看到的碗,估计盘子在桌子上空漂浮,或者误解了叉子要穿透碗而不是靠在它上。

将计算机视觉系统转移到自动驾驶汽车上,赌注变得更高 – 例如,这样的系统未能检测到越过街道的紧急车辆和行人。

为了克服这些错误,麻省理工学院的研究人员开发了一个框架,可以帮助机器看到世界更像人类报道MIT新闻。他们用于分析场景的新的人工智能系统学会了从几个图像中感知现实世界的对象,并就这些学到的对象感知场景。

研究人员使用概率编程构建了该框架,该方法使系统能够交叉检查对象针对输入数据,以查看从相机记录的图像是否可能与任何候选场景匹配。概率推断允许系统推断不匹配是否可能是由于噪声或场景解释中需要通过进一步处理来纠正的错误。

这种常识性的保障措施使系统能够检测和纠正困扰“深度学习”方法的许多错误,这些方法也已用于计算机视觉。概率编程还可以推断场景中对象之间的可能接触关系,并使用有关这些联系人的常识性推理来推断对象的更准确的位置。

“如果您不知道联系关系,那么您可以说一个对象漂浮在表格上方 – 这是一个有效的解释。作为人类,对我们来说很明显,这在身体上是不现实的,而桌子顶部的物体更有可能的姿势。因为我们的推理系统意识到了这种知识,所以它可以推断出更准确的姿势。这是对这项工作的关键见解。计算机感知系统的性能,必须解释物体的复杂布置,例如要清洁混乱厨房的机器人。

Gothoskar的合着者包括最近的EEC博士研究生Marco Cusumano-Towner;研究工程师本·辛伯格(Ben Zinberg);来访学生Matin Ghavamizadeh; MIT-IBM Watson AI实验室的软件工程师Falk Pollok; EECS硕士最近的毕业生奥斯汀·加勒特(Austin Garrett); MIT-IBM Watson AI实验室的首席研究员Dan Gutfreund; Joshua B. Tenenbaum,Paul E. Newton职业发展教授,脑和认知科学系(BCS),计算机科学与人工智能实验室的成员;和高级作家Vikash K. Mansinghka,主要研究科学家兼BCS概率计算项目的负责人。该研究正在12月的神经信息处理系统会议上进行。

曾叱咤风云的

为了开发该系统,称为“通过概率编程(3DP3)”称为“ 3D场景感知”,研究人员从AI研究的早期开始就提出了一个概念,即可以将计算机视觉视为计算机图形的“逆”。计算机图形专注于基于场景的表示生成图像。计算机视觉可以看作是此过程的倒数。 Gothoskar和他的合作者通过将其纳入使用Probabilistic编程构建的框架中,使该技术更具可学习和可扩展性。

“概率编程使我们能够以计算机可以解释的方式写下关于世界某些方面的知识,但与此同时,它使我们能够表达出我们不知道的不确定性。因此,该系统能够自动从数据中学习,并自动检测规则何时无法规定。” Cusumano-Towner解释说。

在这种情况下,该模型由有关3D场景的先验知识编码。例如,3DP3“知道”场景是由不同的对象组成的,并且这些对象通常彼此平整 – 但它们可能并不总是处于如此简单的关系中。这使模型能够以更常识的方式推理场景。

学习形状和场景

为了分析场景的图像,3DP3首先了解该场景中的对象。仅显示一个物体的五个图像后,每个对象都从不同的角度拍摄,3DP3了解对象的形状并估计其在太空中占据的体积。

“如果我从五个不同的角度向您展示一个对象,则可以构建对该对象的很好的表示。您会理解其颜色,形状,并且可以在许多不同的场景中识别该对象。例如,密集的融合神经对象检测系统需要每种对象类型的数千个训练示例。相比之下,3DP3每个对象只需要几张图像,并且报告了每个对象形状的部分不知道的不确定性。”

3DP3系统生成一个图表来表示场景,其中每个对象是一个节点,并且连接节点的线表示哪些对象相互接触。这使3DP3能够对对象的布置方式产生更准确的估计。 (深度学习方法依赖于深度图像来估计对象姿势,但是这些方法不会产生触点关系的图结构,因此它们的估计值不太准确。)

优于基线模型

研究人员将3DP3与几个深度学习系统进行了比较,所有这些系统的任务是估计场景中3D对象的姿势。

在几乎所有情况下,3DDP3都比其他模型产生更准确的姿势,并且当某些物体部分阻塞其他物体时,性能要好得多。 3DP3只需要查看每个对象的五个图像,而每个基线模型的表现都胜过数千幅图像进行训练。

当与另一种模型结合使用时,3DP3能够提高其准确性。例如,深度学习模型可能会预测碗在桌子上方略微漂浮,但是由于3DP3有了解接触关系,并且可以看到这是一种不太可能的配置,因此可以通过对齐碗来进行更正有了桌子。“我发现有时会发现深度学习的错误有多大 – 产生场景表示,这些场景表示确实与人们所感知的不符。我还发现,在我们的因果概率程序中只有一些基于模型的推论足以检测和修复这些错误,这令人惊讶。当然,要使它快速,足够强大地用于挑战实时视觉系统还有很长的路要走 – 但是,我们第一次看到概率的编程和结构化因果模型,改善了对硬学习的鲁棒性,在硬学习方面的鲁棒性3D视觉基准,” Mansinghka说。

将来,研究人员希望进一步推动系统,以便它可以从单个图像或电影中的单个框架中学习一个对象,然后能够在不同的场景中稳健地检测到该对象。他们还想探索3DP3的使用来收集神经网络的培训数据。人类通常很难用3D几何形状手动标记图像,因此3DP3可用于生成更复杂的图像标签。

3DP3系统“将低保真图形建模与常识性推理结合在一起,以纠正深度学习神经网的大型场景解释错误。这种方法可能具有广泛的适用性,因为它解决了深度学习的重要失败模式。麻省理工学院研究人员的成就还展示了DARPA的概率编程以前的概率编程技术如何应用​​机器学习(PPAML)计划,以解决DARPA当前机器常识(MCS)计划下的常识AI的中心问题。”机器常识计划的DARPA计划经理Matt Turek不参与这项研究,尽管该计划部分资助了研究。计算中心,MIT-IBM Watson AI实验室,格言基金会和Siegel家族基金会。

在麻省理工学院新闻的允许下重新发布。阅读原始文章。

原创文章,作者:乐观兔,如若转载,请注明出处:http://www.dsonekey.com/2972.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息