智元发布首个通用具身基座大模型GO-1,让机器人获得革命性学习才能
西港迪威国际客服:
智惠均,上海致远机器人的联合创始人兼首席技术官(彭志辉)上周末微博宣布,“致远机器人下周会发布好东西”
今天,“好东西”来了。致远机器人刚刚发布了首款万能基座模型,——致远启源大模型(Genetic operator-1)模型框架由VLM组成(多模态大模型)+MoE(混合专家)在人类和各种机器人数据的帮助下,机器人获得了革命性的学习能力,可以泛化应用到各种环境和物体中,快速适应新的任务、学习新技能。同时还支持部署到不同的机器人身上,有效完成落地,并在实际使用中不断快速进化。
具身智能的关键是机器人能够感知物理世界,并实时交互。大语言模型、多模态模型和推理模型等AI能力赋予了机器人倾听能力、说、看到功能,并能理解世界,以及拆分任意和逻辑推理等决策能力。
致远机器人研究院执行院长、致远体智事业部总裁姚茂庆介绍,致远启元大模型开创了视觉-language-Latent-Action(ViLLA)VLM的建筑(多模态大模型)借助海量互联网图文数据,获得一般场景感知和语言理解能力,MoE(混合专家)The latent planner in(隐式规划器)借助大量跨本体和人体操作视频数据,获得通用的动作理解能力教育部行动专家(动作专家)借助百万真机数据,获得精细动作执行能力,三者环环相扣,实现了利用人类视频学习的小样本快速泛化,降低了具身智能的门槛,并在致远成功部署到多个机器人本体,持续进化,将具身智能推上新台阶。
人形机器人服务场景。智元机器人提供
不久前,致远机器人推出了自主研发的大规模仿真框架AgiBotDigitalWorld,其中包含了超过100万条轨迹、涵盖217项任务、涉及五个场景的大规模高质量真机数据集,为机器人操作提供了灵活的仿真数据生成方案、预先训练好的大规模仿真数据和统一的模型评估标准,同步开源海量仿真数据。
虽然AgiBotWorld数据集已经是世界上最大的机器人真机教学数据集,但这种带动作标签的高质量真机数据量仍然有限,远不及互联网规模的数据集。因此,致远机器人采用潜伏战术(隐式动作)对当前帧和历史帧之间的隐含变化进行建模,然后通过LatentPlanner对这些潜在动作进行预测,从而将异构数据源中的真实世界动作知识转移到一般的操作任务中。
通过别墅和的创新架构,去吧-1与现有的优化模型相比,在5个不同复杂度的任务上的测试成功率大大领先,平均成功率提高了32%其中,倒水、清理桌面和补充饮料的任务尤为突出。
目前致远机器人主要有三条产品线,分别是远征、精灵和灵犀;探险队主要是面向商业场景的双足人形机器人探险队A1、A2系列;Genie主要是用于通用身体操作的轮式双臂机器人G1,以及用于扩展家庭场景的小型人形机器人林西产品线;林西产品线已经发布了一款X1,预计下半年将发布一款面向机器人爱好者的产品X2。
致远机器人有限公司位于上海自贸区临港的s致远机器人制造工厂于2024年10月投产,并计划在上海张江建设年产约1万台人形机器人的二期工厂。