OKPAY-如何利用NVIDIA Cosmos Cookbook提升机器人操作能力
呆板人操控体系于进入动态实际情况时,难以应答连续变化的物体、光照前提和接触动力学。此外,仿真与实际之间的差距,以和未颠末优化的抓手或者东西,凡是限定了呆板人于多样化使命中的泛化能力、长视距使命的履行能力,以和实现类人灵巧操作的靠得住性。
本期 NVIDIA 呆板人研发择要 (R²D²) 切磋了晋升呆板人操作技术的新要领。于本博客中,咱们将先容三项研究事情:使用推理年夜语言模子、仿真与实际协同练习,以和视觉语言模子来设计操作东西。 ThinkAct:经由过程加强视觉潜于计划实现视觉语言动作推理 用在仿真与实际计谋结合练习的通用域自顺应要领 RobotSmith:面向繁杂操作技术获取的天生式呆板人东西设计 咱们还有将先容怎样使用 Cosmos Cookbook 中的数据加强和其他要领来晋升呆板人操作机能。该指南是一项开源资源,搜集了 NVIDIA Cosmos 于呆板人与主动驾驶范畴中的现实运用案例。 借助 ThinkAct 晋升呆板人推理与动作履行能力 于呆板人开发中,视觉语言动作(VLA)模子可以或许按照视觉信息及天然语言等多模态指令天生响应的呆板人动作。一个高效的 VLA 模子应具有理解并履行动态情况中繁杂多步调操作的能力。然而,当前的呆板人操作要领凡是采用端到真个方式练习 VLA,无需显式的推理历程。这类方式使患上模子于计划长间隔使命时面对挑战,也难以矫捷顺应多样化的使命及情况。 ThinkAct 经由过程于双体系框架中整合高级推理与低层动作履行,以缩小这一差距。该“先思索后步履”的框架由强化的视觉潜于计划实现。 起首,多模态年夜语言模子(MLLM)颠末练习,可以或许天生供呆板人遵照的推理规划。这些规划经由过程强化进修天生,此中视觉奖励机制促使 MLLM 制订出切合物理纪律的履行路径,以实现方针使命。为此,ThinkAct 使用人类与呆板人操作的视频数据,实现基在视觉不雅察的推理。这类练习方式确保了呆板人所天生的计划不仅于理论上合理,还有能按照现实视觉反馈于物理情况中切实可行。这一历程组成了“思索”部门。 此刻进入“步履”部门。推理历程中的中间步调被压缩为一条紧凑的潜于轨迹。该表征包罗规划中的焦点用意与上下文信息。随后,潜于轨迹指导一个自力的动作模子,使呆板人可以或许于差别情况中履行响应动作。经由过程这类方式,高层推理患上以引导并优化实际场景中的底层呆板人举动。

图 1。ThinkAct 概述。 ThinkAct 已经经由过程呆板人操作及具身推理基准测试。于具身 AI 使命中,它乐成实现了少样本部署、长视距操作以和自校订功效。 图 2。长视线操作使命的可视化展示。

利用 Sim-and-Real 计谋举行结合练习 练习呆板人履行操作使命需要于差别使命、情况及对于象配置之间网络数据。一种经常使用的要领是举动克隆,即于实际世界中收罗专家演示。理论上,这类要领具备可行性,但现实运用中成本较高,难以年夜范围扩大。实际世界的数据收罗依靠人工操作员手动提供演示或者监控呆板人运行,历程耗时且受限在呆板人硬件的可用性。 一种解决方案是于仿真情况中网络演示,这类方式可以或许实现主动化及并行化,从而高效便捷地获取年夜量数据。然而,于模仿数据上练习的计谋往往难以有用迁徙到实际场景中,其底子缘故原由于在仿真与实际之间存于差距:仿真体系没法彻底复现真实世界中物理特征、动力学举动、噪声滋扰以和反馈机制的繁杂性。 仿真及实际计谋协同练习经由过程联合仿真情况与极少量真实世界演示,进修通用的操作计谋,从而弥合仿真与实际之间的差距。该要领构建了一个同一的仿真与实际协同练习框架,旨于进修一个同享的潜于空间,使仿真不雅察成果与真实世界数据实现对于齐。该框架基在仿真与实际协同练习的相干研究,并采用了更具表达能力的暗示空间。这类暗示方式不仅晋升了对于齐效果,还有可以或许捕获与动作相干的信息。其焦点思惟是使不雅察成果与其对于应的动作连结一致,从而使计谋可以或许于仿真及真实情况中均有用运行。 这些表征是经由过程一种称为最优传输 (OT) 的技能来进修的。OT 能帮忙计谋辨认仿真与真实世界数据中的相似模式,确保不管输入来自模仿还有是真实情况,用在选择操作的要害信息连结一致。因为模仿数据凡是远多在真实数据,是以可经由过程扩大至非均衡 OT (UOT) 框架来应答这类数据不平衡问题。UOT 采用特定的采样要领,纵然于数据集范围差异较年夜的环境下,也能使练习历程越发高效。

图 3。基在 OT 的仿真与实际计谋协同练习概述。 利用此框架练习的计谋可以或许乐成泛化至实际场景,纵然这些场景仅于练习数据的模仿部门中呈现。于晋升、重叠立方体以和将箱子放入垃圾桶等呆板人操作使命中,对于该要领的仿真到仿真和仿真到实际的迁徙能力举行了评估。

图 4。经由过程仿真与实际协同练习,该计谋仅需至多 25 次演示便可进修长视线使命,例如将物体分类到关闭的抽屉中。 利用 RobotSmith 改良呆板人东西设计 大都呆板人操作使命触及利用差别的东西及物体。利用东西是呆板人与情况交互并履行繁杂操作的要害功效。然而,为人类设计的东西因具备多样且繁杂的形状尺寸,致使呆板人难以有用操作。当前的呆板人东西设计要领凡是依靠不成定制的预界说模板,或者采用未针对于此目的优化的3D天生技能。 RobotSmith 经由过程提供一种使用视觉语言模子(VLM)的主动东西设计框架来应答这一挑战。VLM 擅长推理 3D 空间与物理交互,同时可以或许理解于包罗差别对于象的情况中呆板人可履行的动作。这些要害能力使其于高效的东西设计中阐扬主要作用。 RobotSmith 将视觉语言模子(VLM)中的先验常识与仿真情况中的结合优化历程相联合,以天生面向特定使命的东西。其三年夜焦点组件为: Critic Tool Designer:两个 VLM 智能体协作天生候选东西几何图形。 东西利用计划器:依据设计的东西与场景天生操作轨迹,并于模仿中履行及评估候选轨迹和抓取效果。 “Joint Optimizer” (结合优化器):于仿真中结合微调东西几何图形与轨迹参数,以尽可能晋升机能。此历程对于剔除了可能致使使命掉败的次优东西与轨迹组合至关主要。 RobotSmith 以这类方式为推送、扫描或者关闭等使命天生差别的东西设计方案。

图 5。RobotSmith 迭代东西设计,确定高效的设计,并使用所设计的东西天生轨迹,以完成用户使命。 于仿真情况及实际世界使命中对于 RobotSmith 举行了评估,完备的试验与成果详见论文。建造煎饼作为一项现实测试使命,框架针对于每一个步调(例如压和蔼抹面)设计并利用了差别的东西,注解该框架可以或许乐成履行长间隔使命。

图 6。RobotSmith 设计并利用针对于长视线操作场景中各子使命优化的专用东西。 经由过程 NVIDIA Cosmos Cookbook 缩小仿真与实际之间的差距 于本博客前面,咱们切磋了仿真与实际之间的差距,并先容了怎样使用合成数据练习呆板人计谋。传神且多样化的合成数据集可以或许天生靠得住的计谋,使其更好地顺应实际世界。NVIDIA Cosmos 开放世界基础模子(WFM),尤其是此中的 Cosmos Transfer,可以或许经由过程单次模仿天生传神且多样化数据,从而扩大合成数据集。完备的流程可于Robotics Domain Adaption Gallery(呆板人范畴自顺应图库)的示例中找到。 除了了此事情流以外,NVIDIA Cosmos Cookbook 还有提供了分步引导及后练习剧本,帮忙快速构建、定制及部署合用在呆板人、自立体系和代办署理式体系的 Cosmos WFM。内容深切切磋了如下示例与观点: 快速启动推理示例以实现快速部署与运行。 高级后练习事情流程,撑持特定范畴的邃密微调。 颠末验证的可扩大、出产就绪的部署方案。 涵盖基础主题、焦点技能、架构模式和东西文档的焦点观点。 Cosmos Cookbook 是物理 AI 社区别享 Cosmos WFM 实践常识的资源平台。咱们接待各方经由过程 GitHub 孝敬内容,包括事情流、要领、优异实践以和针对于特定范畴的调解方案。 入门指南 于本博客中,咱们切磋了晋升呆板人操作能力的新事情流程。咱们展示了 ThinkAct 怎样经由过程“先思索后步履”的框架,对于呆板人动作举行推理与履行。接着,咱们会商了怎样于通用操作计谋的练习中联合利用模仿与真实数据。咱们还有分享了 RobotSmith 怎样天生呆板人东西设计,以优化完成繁杂使命时的东西利用效率。末了,咱们先容了 Cosmos Cookbook 怎样借助 Cosmos 模子,为物理 AI项目提供示例及同享空间。 查看如下资源,深切相识本博客中会商的事情: ThinkAct:论文、项目网站 针对于仿真与实际计谋结合练习的通用范畴顺应性:论文、项目网站 RobotSmith:论文、项目网站 Cosmos Cookbook:网站、GitHub NVIDIA 研究团队于 NeurIPS 2025 上发表了多篇论文,涵盖 ThinkAct、Generalizable Domain Adaptation 及 RobotSmith 等研究标的目的。 本文是 NVIDIA 呆板人研发择要 (R2D2) 的一部门,旨于帮忙开发者深切相识 NVIDIA Research 于物理 AI 与呆板人运用范畴的最新冲破。 关在作者 Asawaree Bhide 是 NVIDIA 的 AI 嵌入式工程实习生,致力在优化及部署边沿装备上的深度进修模子。她今朝正于乔治亚理工学院攻读计较机科学硕士学位,她对于解决由详细代办署理自立导航的繁杂感知使命感兴致。Tomasz Lewicki 是 NVIDIA 的嵌入式工程实习生。他拥有圣何塞州立年夜学计较机工程硕士学位,华沙工业年夜学华沙工业年夜学呆板人工程学学士学位。他的兴致集中于计较机视觉及呆板人运用的深度进修上。
原文标题:R²D²:联合仿真与语言模子晋升呆板人操作能力
文章来由:【微旌旗灯号:NVIDIA-Enterprise,微信公家号:NVIDIA英伟达企业解决方案】接待添加存眷!文章转载请注明来由。
借助NVIDIA技能晋升呆板人的挪动及全身节制能力 咱们经由过程于自身平台上颠末验证的进步前辈研究来应答这些挑战。咱们的要领将前沿研究与工程事情流相联合,并于咱们的 AI 及呆板人平台(包括 NVIDIA Omniverse、Cosmos、Isaac Sim
![的头像]()
发表在 04-27 15:14 •1190次浏览 怎样于NVIDIA Jetson Thor上晋升呆板人感知效率 构建自立呆板人需要具有靠得住且低延迟的视觉感知能力,以实此刻动态情况中的深度预计、障碍物辨认、定位与导航。这些功效对于计较机能有较高要求。NVIDIA Jetson 平台虽为深度进修提供了强盛的 GPU
![的头像]()
发表在 12-24 10:14 •3421次浏览 【「具身智能呆板人体系」浏览体验】2.具身智能呆板人年夜模子 最近几年来,人工智能范畴的年夜模子技能于多个标的目的上取患了冲破性的进展,尤其是于呆板人节制范畴揭示出了巨年夜的潜力。于“具身智能呆板人年夜模子”部门,作者研究并切磋了年夜模子怎样晋升呆板人的能力,年夜 发表在 12-29 23:04 RK3576呆板人焦点:三屏异显+八路摄像头,重塑呆板人交互与感知 更多 、 互动更流利 是开发者面对的焦点挑战。传统的单一屏幕及有限的视觉输入已经成为晋升呆板人智能化程度的瓶颈。而瑞芯微RK3576高机能处置惩罚器的呈现 发表在 10-29 16:41 呆板人视觉——呆板人的“眼睛” 今朝财产呆板人仅能于严酷界说的布局化情况中履行预定指令动作,缺少对于情况的感知与应变能力,这极年夜地限定了呆板人的运用。使用呆板人的视觉节制, 发表在 01-23 15:02 华南呆板人运用培训中央工业呆板人培训班招生 对于呆板人技能有越发深切的熟悉及相识以和现实操作能力获得较年夜提高,具有呆板人行业公司和相干单元对于从业职员的技能前提要求。 三、工业呆板人专业人材稀缺,就业上风较着。本专业人材全数依靠 发表在 09-02 14:03 分享:人工智能算法将领导呆板人走向何方? 景,还有是现实功效。 更利便——晋升呆板人操控体验人工智能的呈现,推进呆板人从按钮式号令节制改变为语音、触屏、视觉、手势等互动节制方式。于人工智能未呈现以前,呆板人的利用年夜大都是经由过程按钮举行操 发表在 08-16 10:44 NVIDIA Cosmos世界基础模子平台发布 NVIDIA 公布推出NVIDIA Cosmos,该平台由进步前辈的天生式世界基础模子、高级 tokenizer、护栏及加快视频处置惩罚管线构成,将鞭策主动驾驶汽车(AV)及呆板人等物理 AI
![的头像]()
发表在 01-08 10:39 •1116次浏览 51Sim使用NVIDIA Cosmos晋升辅助驾驶合成数据场景的泛化性 51Sim 使用 NVIDIA Cosmos 的天生式世界基础模子,对于现有的合成数据举行年夜范围泛化,于确保物理真实性的条件下,年夜幅晋升了数据的富厚度。同时依托
![的头像]()
发表在 06-26 09:09 •1183次浏览 经由过程NVIDIA Cosmos模子加强呆板人进修 通用呆板人的时代已经经到来,这患上益在机械电子技能及呆板人 AI 基础模子的前进。但今朝呆板人技能的成长仍面对一个要害挑战:呆板人需要年夜量的练习数据来把握诸如组装及查抄之类的技术,而手动演
![的头像]()
发表在 07-14 11:49 •877次浏览 使用NVIDIA Cosmos模子练习通用呆板人 呆板人范畴的一年夜焦点挑战于在怎样让呆板人把握新使命,而无需针对于每一个新使命及情况泯灭年夜量精神网络及标注数据集。NVIDIA 的最新研究方案经由过程天生式 AI、世界基础模子(如 NVIDIA
![的头像]()
发表在 08-05 16:22 •1858次浏览 NVIDIA经由过程全新 Omniverse库、Cosmos物理AI模子和AI计较基础举措措施,为呆板人范畴开启新篇章 NVIDIA 经由过程全新 Omniverse 库、Cosmos 物理 AI 模子和 AI 计较基础举措措施,为呆板人范畴开启新篇章 · 全新 NVIDIA Omniverse NuRec
![的头像]()
发表在 08-12 11:29 •1445次浏览 NVIDIA三台计较机解决方案怎样协同助力呆板人技能 NVIDIA DGX、基在 NVIDIA RTX PRO 办事器的 Omniverse 及 Cosmos,以和 Jetson AGX Thor,正周全加快从人形呆板人到
![的头像]()
发表在 08-27 11:48 •2138次浏览 呆板人看点:宇树新专利可晋升呆板人演出效果 蔚来本钱入股具身智能公司原力灵机 美信科技新设呆板人制 给各人带来一些呆板人相干讯息: 宇树新专利可晋升呆板人演出效果 据企查查APP信息显示,宇树科技株式会社“一种基在数字孪生的呆板人运动节制要领及电子装备”专利宣布;该新专利可晋升呆板人
![的头像]()
发表在 09-01 16:55 •1738次浏览 NVIDIA 使用全新开源模子与仿真库加快呆板人研发进程 科研职员和开发者打造功效更强盛、顺应性更强的呆板人。 全新的 NVIDIA Isaac GR00T 开源基础模子将为呆板人付与靠近人类的推理能力,使其可以或许拆解繁杂指令,并借助已经有知
![的头像]()
发表在 09-30 09:52 •2852次浏览-OKPAY