以下内容来自小六的机器人SLAM学习圈(6年积累,国内最大的机器人SLAM交流社区,为SLAM行业从业者提供从入门、学习、交流、求职、线下链接、合作等一系列服务、咨询、问答等服务)知识星球每日更新内容
arxiv 快递|卡内基梅隆开源《3D扩散代理:具有3D场景表示的策略扩散》
【具有3D场景表示的3D Diffuser Actor:策略扩散】
文章链接:[2402.10885] 3D Diffuser Actor: 策略扩散w.
项目主页:https://3d-diffuser-actor.github.io/
开源代码: GitHub - nickgkan/3d_diffuser_actor: 代码.
我们将扩散策略和3D 场景表示结合起来进行机器人操作。扩散策略利用条件扩散模型来学习以机器人和环境状态为条件的动作分布。最近的研究表明,它们优于确定性和替代状态条件动作分布学习方法。 3D 机器人策略使用从单个或多个摄像机视图聚合的3D 场景特征的感知深度表示。与2D 同行相比,它们在相机视点上表现出了更好的泛化能力。
我们统一了这两个方面的工作,并提出了3D Diffuser Actor,这是一种神经策略架构,根据给定的语言指令,构建视觉场景的3D 表示及其条件,以便在机器人端迭代执行3D 旋转和平移。去噪装置。在每次去噪迭代中,我们的模型将末端执行器的姿态估计表示为3D 场景标记,并通过使用3D 相对于其他3D 视觉和语言标记的注意力来预测每个场景标记的3D 平移和旋转误差。来表征他们。 3D Diffuser Actor 在RLBench 上实现了最先进的性能,在多视图设置上比当前最先进的技术绝对性能提升了18.1%,在单视图设置上绝对性能提升了13.1%。
在CALVIN基准上,它在零样本隐形场景泛化设置上优于当前的SOTA,并且可以成功运行0.2个以上的任务,相对提升了7%。通过很少的演示,它也可以在现实世界中发挥作用。我们抽象了模型架构设计选择,例如3D 场景专业化和3D 相对关注,并展示它们如何帮助泛化。我们的结果表明,3D 场景表示和强大的生成建模是有效机器人演示学习的关键。 #论文#开源
以上内容来自小六的机器人SLAM学习圈(累计6年多,国内最大的机器人SLAM交流社区,为SLAM行业从业者提供从入门、学习、交流、求职、线下链接、合作等一系列信息,咨询、问答等服务)知识星球每日更新内容
推荐教程
大变化! NeRF和3D高斯泼溅如何重塑SLAM?全部15场讲座全部在线! 2024年最爆新技术! 3D高斯泼溅(全网独家)杂志顶不再难!这个面向多传感器融合SLAM、生成式AI、3DGS、NeRF、标定等方向的开源框架让无数卫星定位研究人员和初创公司受益!一举掌握视觉3D重建!深度计算+点云处理+网格重建优化+纹理贴图!香港大学开源的这款激光雷达惯性SLAM太强大了! BOSS:使用机器人模拟,我们可以节省数十万美元。 GNSS和RTK对于自动驾驶有多重要?太强了!全球首个开源集成自动驾驶框架Autoware! (附交流群)如何从零开始搭建自己的SLAM系统?全部17场讲座全部在线!互联网第一本详解深度学习特征开源算法SuperPoint和SuperGlue(附交流群)和最爆的机器人AI技术教程都在这里!