pi05
这篇文章提出了π0.5模型,通过异构数据协同训练与分层推理架构,解决了机器人在全新家庭环境中执行长视野任务的泛化难题。
这篇文章提出了π0.5模型,通过异构数据协同训练与分层推理架构,解决了机器人在全新家庭环境中执行长视野任务的泛化难题。
待添加文章描述
这篇文章为GR-2技术报告,提出了一种基于视频-语言-动作模型的基座模型GR-2,该模型在互联网视频上进行自回归预训练(预测未来帧),再通过后训练预测视频token与动作token,能够泛化到各种机器人任务和环境。
论文提出了一个基于视觉-语言-动作(VLA)框架的层次化灵巧抓取系统DexGraspVLA,利用了视觉大模型生成域不变特征,能够实现对物体的泛化抓取。
关于GR00T N1的论文笔记,提出了一个双系统架构的VLA基础模型,用于通用人形机器人。
overview of VLA-Survey
Short summary of the post.
Short summary of the post.