
在走向通用东说念主工智能的说念路上,机器东说念主领域经久面对着“莫拉维克悖论”的限制:好多对东说念主类来说很贫瘠的事,AI 却很擅长;而好多对东说念主类来说举手之劳的事,AI 反而作念不到。
举例,让考虑机在才能测试或棋类游戏中打败东说念主类大约相对容易,但要让机器东说念主像一岁孩子那样具备对物理寰球的感知和指引本能,却难如登天。
连年来,大说话模子展现了对东说念主类学问的压缩与生成才能,但在物理交互层面,若何让智能体交融“动作”与“环境”之间复杂的因果关连,遥远是具身智能尚未攻克的难题。
近日,(NVIDIA)与其通器具身智能考虑团队(GEAR)共 30 个作家聚拢发布了一项代号为 DreamDojo 的最新考虑效果,试图从根底上影响机器东说念主学习物理寰球的形状。

这项责任并莫得依赖传统的、玄妙的机器东说念主遥操作数据堆叠,而是别具肺肠,构建了一个包含 44,000 小时、第一东说念主称视角东说念主类视频的重大数据库,并以此覆按出了一个能够通用化的机器东说念主寰球模子。
这一模子不仅能够传神地生成物理交互视频,更要害的是,它让机器东说念主初次具备了可控的“设想力”。即在践诺动作之前,在潜意志中预演东说念主类寰球物理后果的才能。

寰球模子的主见依然并不崭新。从早期的游戏环境模拟到自动驾驶中的轨迹瞻望,瞻望将来景况一直是智能决策的中枢。可是,在通达寰球的机器东说念主操作任务中,寰球模子的构建面对着私有的挑战。与有着明晰规则的电子游戏或结构化说念路不同,家庭、工场或办公室等非结构化环境充满了不细目性。
举例一个看似简单的“捏打水杯”动作,波及物体材质、摩擦力、液体飘荡以及机械臂能源学等无数变量。此前的视频生成模子,如 OpenAI 的 Sora 或 Google 的 Genie,固然在画面生成质料上取得了冲破,但它们大多浮泛精准的动作限定接口,难以径直行状于机器东说念主的决策回路。
而这次 DreamDojo 的中枢冲破就在于此,它讲明了通过大范围的东说念主类视频预覆按,伙同翻新的“潜在动作”(Latent Actions)表征,不错有用地弥合东说念主类与机器东说念主之间的“具身各异”(Embodiment Gap),从而让机器东说念主获取对物理法例的通用交融。
借力东说念主类视频冲破数据缺口
经久以来,制约机器东说念主基础模子发展的最大瓶颈在于数据。尽管互联网上充斥着万亿级别的文本和图像数据,但高质料的“机器东说念主操作数据”。即包含精准动作提醒(Action Labels)和环境反馈的序列数据却格外稀缺。当今主流的机器东说念主数据集,如 Open X-Embodiment,固然汇集了多个实验室的数据,但在场景千般性和物理交互的丰富度上,仍远不及以隐蔽真实寰球的复杂性。
英伟达团队意志到,单纯依靠扩大机器东说念主实体数据的采集范围是不现实的。采集老本怡悦、硬件损耗大、场景叮咛繁琐,这些身分限制了数据的增长速率。比较之下,东说念主类在闲居生计中年复一年齐在与物理寰球交互,而这些交互过程要是被纪录下来,本人便是蕴含着丰富物理学问的宝库。
为了挖掘这一宝库,考虑团队构建了名为 DreamDojo-HV(Human Videos)的数据集。这是一个范围惊东说念主的数据蚁合,包含了约 44,711 小时的第一东说念主称视角视频。
这些视频并非来自于受控的实验室环境,而是粗莽采集自真实寰球,涵盖了家庭烹调、工业维修、手工制作、闲居清洁等进步 6,000 种私有的手段和 1,000 多种不同的场景。为了保证数据的千般性,团队还畸形整合了 EgoDex 等现存的高质料数据集,使得 DreamDojo-HV 在范围上比此前机器东说念主学习中使用的最大视频数据集还要大出几个数目级。

可是,径直使用东说念主类视频覆按机器东说念主模子也面对着一定贫瘠。最直不雅的问题是:东说念主类的手臂结构与机器东说念主的机械臂完全不同,且东说念主类视频中并不包含机器东说念主的枢纽角度、力矩等限定信号。这种缺失导致模子难以径直学习“动作”与“扫尾”之间的映射关连。
逐帧推理下一个动作
为了处置无标签东说念主类视频的行使问题,DreamDojo 引入了一项要害时刻:连气儿潜在动作(Continuous Latent Actions)。
在传统的机器东说念主学习中,模子常常径直瞻望防碍的枢纽动作或结尾践诺器位姿。但在处理海量无标注的东说念主类视频时,这种要领行欠亨了。因此,考虑东说念主员遐想了一个基于时空 Transformer 的(VAE)当作“潜在动作模子”。
这个模子的作用雷同于一个能够交融动作实质的“翻译官”。它不温煦具体的枢纽若何旋转,而是通过不雅察视频中连气儿帧的变化,索要出一个低维的、连气儿的潜在向量。这个向量代表了导致环境发生变化的“意图”或“力学特征”。

通过这种遐想,潜在动作成为了连气儿东说念主类视频与机器东说念主限定的通用桥梁。在预覆按阶段,模子通过自我监督的形状,学习若何从像素变化中测度出潜在动作,并行使这些潜在动作瞻望下一帧画面。
这使得 DreamDojo 能够在莫得显式动作标签的情况下,从 44,000 小时的视频中吸收物理寰球的因果逻辑。举例,它通过不雅察无数次“手推开门”的视频,开云学会了“施加推力”这一潜在动作会导致“门掀开”这一视觉扫尾的物理法例,而这种法例关于机器东说念主来说相同适用。
在具体的模子架构上,DreamDojo 建筑在英伟达此前发布的 Cosmos-Predict2.5 基础之上。这是一个坚贞的潜在视频扩散模子(Latent Video Diffusion Model),底本用于通用的视频生成。为了恰当机器东说念主的及时限定需求,考虑团队对其进行了深度的雠校。
为了提高动作的可控性,团队毁灭了悉数枢纽位置的输入形状,转而领受“相对动作”(Relative Actions)当作条目。实验标明,相对动作能够更好地聚焦于物体与手部的交互变化,减少了布景环境对模子谨慎力的散播。
同期,针对视频生成中常见的“因果污染”问题,即模子难以差别动作是原因照旧扫尾。考虑团队建议了一种“分块注入”(Chunked Injection)计谋。
他们将将来的动作序列打包成块,一次性输入到模子的每一帧生成过程中。这种强先验信息强制模子温煦永劫程的动作影响,从而权贵普及了生成视频的逻辑连贯性。
此外,为了确保生成的物理过程恰当现实寰球的连气儿性,考虑团队还引入了专诚的时候一致性失掉函数(Temporal Consistency Loss)。这一函数敛迹了物体在时候轴上的指引轨迹,珍爱了视频生成中常见的物体精通、假造褪色或体式突变等伪影气候,确保了物理模拟的高保真度。
从慢速扩散到超快及时“设想”
领有一个懂物理的模子仅仅第一步,关于机器东说念主应用来说,推理速率至关垂危。传统的视频扩散模子生成一帧高质料画面经常需要数十次迭代,耗时数秒,这关于需要毫秒级反应的机器东说念主限定回路来说是不行接管的。
为了处置这一难题,DreamDojo 领受了一种名为“自免强”(Self Forcing)的蒸馏时刻,奏凯将底本沉重的双向谨慎力扩散模子滚动为高效的自纪念模子。
这一过程通过“西席-学生”覆按模式竣事:率先行使高精度的西席模子生成多数的轨迹数据,然后覆按学生模子去师法这些轨迹。但在蒸馏过程中,学生模子不仅要学习单帧的生成,还要学习如安在仅有极短历史高下文的情况下,瞻望将来的经久演变。
这一蒸馏过程将模子的推理步数从底本的 35 步大幅压缩至 4 步。最终,DreamDojo 在单张 NVIDIA H100 GPU 上竣事了 10.81 FPS(帧/秒)的及时推理速率。这意味着机器东说念主不错在不到 0.1 秒的时候内,在“脑海”中生成将来的视觉反馈。
这不仅险恶了及时限定的要求,更让永劫程的交互模拟成为可能。实验清醒,经过蒸馏后的模子能够连气儿生成长达 1 分钟(约 600 帧)的恬逸视频,且在永劫候跨度下依然保持对物体过甚物理属性的挂牵,莫得出现常见的画面崩坏。
买通“虚实”范围的实践应用
DreamDojo 的价值远不啻于生成传神的视频,其实质是为机器东说念主提供了一个低老本、高保确凿“试错空间”。基于这一生界模子,英伟达团队展示了三项中枢应用,充分讲明了其在机器东说念主研发与部署经由中的后劲。
率先是计谋评估(Policy Evaluation)。在机器东说念主开荒中,考证一个新的限定计谋常常需要实机测试,这不仅遵循低下,还伴跟着硬件损坏的风险。DreamDojo 提供了一个替代决策:将计谋部署谢寰球模子中,让机器东说念主在虚拟的视频流中践诺任务。
考虑东说念主员在 AgiBot 机器东说念主的生果包装任务中进行了考证,扫尾令东说念主奋斗:DreamDojo 模拟出的任务奏凯率与真实寰球的奏凯率呈现出极高的线性关联性(Pearson 关接洽数高达 0.995)。这意味着开荒者不错宽解地在模拟环境中筛选最优计谋,而无需在现实寰球中进行成百上千次的物理实验。
其次是基于模子的策画(Model-based Planning)。行使 DreamDojo 的瞻望才能,机器东说念主不错在践诺动作之前,在“念念维”中并行推演多种动作决策的扫尾。
举例,在捏取一个被保密的苹果时,机器东说念主不错预演径直捏取和先移开保密物两种决策,DreamDojo 会即时生成相应的将来视频。通过评估视频中的任务完成度,机器东说念主不错聘请最优旅途。实验标明,在引入这种在线策画机制后,机器东说念主在复杂长程任务中的奏凯率比较径直践诺计谋普及了近两倍。
终末是及时遥操作(Live Teleoperation)。借助蒸馏后的高推理速率,操作员不错通过 VR 手柄及时启动虚拟环境中的机器东说念主。DreamDojo 能够即时反应操作员的动作,并生成相应的视觉反馈。这种“所见即所得”的零蔓延体验,不仅为而已限定提供了新的界面,也为东说念主类向机器东说念主演示复杂手段提供了更直不雅的数据蚁集形状。

天然,DreamDojo 并非精粹绝伦。英伟达团队在评释中坦诚地指出了面前模子的局限性。尽管在大部分闲居场景中发扬优异,但在面对一些顶点动态(如快速挥手、物体高速碰撞)或波及复杂流体能源学(如倒水时的水流湍流)的场景时,生成的视频仍会出现物理失真或隐晦。
此外,固然模子在未见过的物体上展现了邃密的泛化性,但关于完全生分的物理机制(举例具有特别弹性的软体材料),其瞻望才能依然有限。
{jz:field.toptypename/}此外,当今的 DreamDojo 主要侧重于视觉层面的物理模拟,尚未整合触觉、听觉等多模态信息。关于像“盲插钥匙”或“判断物体分量”这么格外依赖触觉反馈的紧密操作任务,单纯依靠视觉瞻望的寰球模子仍显过劲不从心。将来的考虑地点可能需要探索若何将触觉信号引入潜在动作空间,构建愈加万能的多模态寰球模子。
https://arxiv.org/abs/2602.06949
运营/排版:何晨龙