谷歌 DeepMind 发布 Robotic Transformer2(RT-2):突破视觉-语言-动作模型的新里程碑

谷歌旗下的 DeepMind 公司近日发布了全新的视觉-语言-动作模型(VLA),命名为 Robotic Transformer2(RT-2)。该模型能够与机器人进行互动,通过学习网络和机器人数据,将知识转化为高效的指令。

d2b5ca33bd112227

RT-2是 RT-1 模型的升级版,采用了 Transformer 结构构建,具备更卓越的性能和泛化能力。在一系列的定性和定量实验中,RT-2 展现出出色的学习和理解能力,能够进行基本的推理和多阶段的语义推理。通过与思维链推理相融合,RT-2 能够学习长期规划和低级技能,执行更为复杂的指令。

d2b5ca33bd112240

研究人员观察到,与之前的基准模型相比,RT-2 的泛化性能提升了3倍以上。RT-2 的成功突显了将视觉语言模型转化为视觉语言动作模型的潜力,为构建通用实体机器人铺平了道路。

论文链接:https://robotics-transformer2.github.io/assets/rt2.pdf

d2b5ca33bd112249

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容