人工智能系统通过观看视频学习建模织物如何交互

赫连弘泽
导读 在印前服务器Arxiv org上发表的一篇论文中,来自CSAIL、英伟达、华府大学和麻省理工学院多伦多大学的研究人员描述了一个人工智能系统,该系

在印前服务器Arxiv.org上发表的一篇论文中,来自CSAIL、英伟达、华府大学和麻省理工学院多伦多大学的研究人员描述了一个人工智能系统,该系统通过观看视频来学习影响织物等材料的物理相互作用。他们声称,该系统可以推断出以前从未见过的相互作用,例如涉及多件衬衫和裤子的相互作用,从而可以进行长期预测。

因果理解是反事实推理的基础,或者是对已经发生的事件的可能替代方案的想象。例如,在包含一对通过弹簧相互连接的球的图像中,反事实推理将需要预测弹簧影响球相互作用的方式。

研究人员的系统——视觉因果发现网络(虚拟CDN)——通过以下三个模块猜测相互作用:一个用于视觉感知,一个用于结构推断,一个用于动态预测。感知模型被训练为从视频中提取一些关键点(感兴趣区域),干扰模块识别控制关键点对之间交互的变量。同时,动力学模块使用推理模块创建的图形神经网络来学习和预测关键点的未来运动。

研究人员在模拟环境中研究了V-CDN,其中包含各种形状的织物:衬衫、裤子和毛巾,具有不同的外观和长度。它们对织物的轮廓施加力,使其变形并四处移动,目的是创建一个可以处理不同类型和形状织物的模型。

研究人员表示,结果表明,随着观察到更多的视频帧,V-CDN的性能得到了改善,这与直觉有关,即更多的观察结果可以更好地估计控制织物行为的变量。他们写道:"该模型并没有假设可以访问基本的事实因果图,也没有。描述物理交互的动力学。""相反,它学会了以无监督的方式从图像中发现依赖结构,并对端到端的因果机制进行建模。我们希望这种方法将有助于未来更通用的视觉推理系统的研究。"

研究人员仔细注意到,V-CDN无法解决因果建模的巨大挑战。相反,他们认为他们的工作是朝着建立基于物理的"视觉智能"的更广泛目标迈出的第一步,这种智能可以模拟动态系统。他们写道:"我们希望引起人们对这一巨大挑战的关注,并刺激未来基于视觉输入的物理推理的泛化研究,而不需要特定领域的特征工程。"

标签:

免责声明:本文由用户上传,如有侵权请联系删除!