为了回答有关图像的问题,目前的方法依赖于从监督模型中获得的2D分割掩码。但是,遮挡会导致不正确的分割和答案。因此,arXiv.org最近的一篇论文通过利用中间3D表示提出了一种新颖的概念基础框架。它更类似于人类如何通过基于图像的概念进行推理。
研究人员建议利用神经场的连续、可微性质作为中间3D表示,可用于通过问答进行分割和概念学习。在神经域之上,定义了一组神经算子。有了它们,也可以很好地进行视觉推理。
所提出的方法在分割和推理任务中都优于基线模型。它还可以很好地推广到看不见的形状类别和真实扫描。
在本文中,我们通过查看RGBD图像和推理配对问题和答案来解决3D概念基础(即分割和学习视觉概念)的挑战性问题。现有的视觉推理方法通常利用监督方法来提取概念所依据的2D分割掩码。相比之下,人类能够将概念建立在图像的底层3D表示上。然而,传统推断的3D表示(例如,点云、体素网格和网格)不能灵活地捕获连续的3D特征,因此难以根据所引用对象的语言描述将概念定位到3D区域。为了解决这两个问题,我们建议利用神经领域的连续、可微性质来分割和学习概念。具体来说,场景中的每个3D坐标都表示为一个高维描述符。然后可以通过计算3D坐标的描述符向量和语言概念的向量嵌入之间的相似性来执行概念基础,这使得分割和概念学习能够以可微的方式在神经领域上联合学习。因此,3D语义和实例分割都可以直接从问答监督中出现,使用神经域之上的一组定义的神经算子(例如,过滤和计数)。实验结果表明,我们提出的框架在语义和实例分割任务上优于无监督/语言介导的分割模型,并且在具有挑战性的3D感知视觉推理任务上优于现有模型。此外,
标签:
免责声明:本文由用户上传,如有侵权请联系删除!