作为现阶段最成功的VR内容生态系统之一,Quest商店吸引了越来越多的开发者发布VR内容,但这对于Meta来说似乎还不够。它还在探索某种UGC VR生态系统,例如在Horizon Worlds中提供视觉开发工具,以便普通人可以创建VR应用程序。近日,Meta发布的一项新研究表明,未来制作AR/VR内容可能就像拍摄短视频一样简单。
据了解,为了简化AR/VR内容的开发,Meta开发了RGB-D图像生成3D模型解决方案:MCC。 MMC的全称是多视图压缩编码。它是一个基于Transformer的编码器-解码器模型,可以基于一帧RGB-D图像合成/重建3D模型。潜在的应用场景包括AR/VR、3D视觉重建、机器人导航。数字孪生/虚拟仿真等。与普通彩色2D图像不同,RGB-D是带有深度的彩色图像,相当于普通RGB三通道彩色图像加上深度图(Depth Map)。两者被注册并具有一一对应的像素。
事实上,Meta在2018年的F8大会上就宣布了3D照片研究,可以通过双摄手机拍摄出具有3D效果的照片,其中包含一定的深度信息。它甚至开发了将2D 图像转换为3D 的CNN 模型,该模型支持单摄像头手机。这意味着,如果与MCC解决方案结合,或许可以将单摄像头手机拍摄的2D图像合成为3D模型。
Transformer 是一种使用自注意力机制的深度学习模型。 Google已经用它来增强搜索引擎,最近流行的ChatGPT模型也是基于Transformer的。最初,Transformer 更常用于自然语言处理领域,但随着它与大规模、通用类别的学习模型相结合,开始应用于语言处理以外的领域,例如图像合成、图像处理等。分析。
使用MCC 解决方案,3D 开发/综合将有望实现规模化。随着深度传感器和深度捕捉AI模型在手机上的普及,具有深度信息的图像变得越来越容易获取,因此MCC可以使用的数据规模足够大。
研究背景Meta研究人员指出,视觉识别的一个核心目标是基于单个图像来理解物体和场景。在大规模学习和通用表示的驱动下,二维图像识别技术得到了很大的提高。然而,现阶段识别3D 场景/物体仍然存在挑战。由于2D图像源中存在图形遮挡,因此很难从单个图像合成完整的3D图像。模型。
为了解决这个问题,一些3D 合成模型依赖于不同角度的多个源图像。如果使用CAD模型进行训练,市场上可用的数据集规模不够大,从而限制了3D合成和理解技术的发展。
MCC只需要RGB-D图像进行训练,图像中不可见的部分也可以在3D模型中完全预测/合成。用于监督的数据基于包含深度信息和相机姿势的视频帧。
解决方案原理MCC 使用简单的解码器-编码器架构。将RGB-D 图像输入MCC 将产生输入编码。然后解码器将访问输入编码中的3D 点数据来预测点的占用情况和RGB 颜色。 (将3D 重建定义为二元分类问题)。简单来说,MCC只需要处理3D点云数据,3D点可以捕捉任何物体或场景。它们比网格和体素更通用,因此可以使用大规模RGB-D 图像数据来训练模型。另外,RGB-D图像可以通过手机的LiDAR传感器捕获,或者通过深度模型(例如MiDas、COLMAP)计算。
研究人员使用来自不同数据集的深度图像/视频来训练MCC。这些数据部分并不包含3D场景和3D物体的所有角度,这将需要AI重建。此外,MCC还可以将AI合成的图像转换为3D模型。
因此,MCC最大的特点是可以预测RGB-D图像中不可见和被遮挡的3D几何形状。研究人员表示:MCC模型与基于图像的自监督学习和掩模自动编码器(MAE)的最新进展直接相关。 MAE 还通过预测图像中不可见的形状来学习图像表示。此外,MCC 不需要带注释的3D 数据,使得收集数据更便宜、更容易。
研究人员表示:研究结果表明,将基于点云的3D合成模型与通用类别的大规模训练相结合是有效的。未来,我们希望将这一成果拓展为通用的3D分析视觉系统,使3D重建/合成效果更加接近人脑的想象。
与其他解决方案相比,Google和NVIDIA等科技公司也开发了2D图像转3D技术,分别依靠NeRF和反向渲染(3D MoMa)。缺点是需要多幅图像,NeRF很难从单幅图像生成新的场景。其他一些解决方案需要使用有限规模的数据(例如3D CAD模型)进行训练,而MCC只能通过RGB-D图像来训练3D重建。
此外,MCC具有良好的通用性,对于以前从未见过的新物体类别可以“开箱即用”(支持零样本学习),并且可以直接处理成3D模型。
为了演示MCC 与不同数据源的兼容性,研究人员将其与多个图像源相结合,例如:
iPhone 14 Pro(LiDAR 传感器)图像生成AI DALL-E 2 Facebook 开源的3D 重建数据集CO3D(Common Objects in 3D)大型视觉数据库ImageNet3D 模拟数据集Hypersim 室内场景数据集Taskonomy 这些数据集包含50 多个常见对象类型,以及大型场景,如仓库、礼堂、阁楼、餐厅等,利用它们重建的3D模型无法一一还原,但看起来比原来的更加圆润、卡通,但是它们用于3D开发,质量足够好。未来,随着更多的数据和更多样化的对象进行训练,MCC的性能可以得到显着的提升。
参考:元