开云app 视频模子能处理机器东谈主“预测未来”的问题吗？短期能，永远不可

发布日期：2026-02-14 21:27 点击次数：90

2026 年 2 月 12 日，普林斯顿大学机械与航空航天工程系副培植 Anirudha Majumdar 在 X 上发表了一篇长博文，直面一个正在机器东谈主学界升温的中枢争论：为具身智能构建全国模子，到底应不应该去“预测像素”？

Majumdar 是普林斯顿机器东谈主推敲倡议（Princeton Robotics Initiative）的联接主任，同期在 Google DeepMind 担任兼职拜谒推敲科学家。他的推敲聚焦于让机器东谈主在以东谈主为中心的环境中安全、可靠地泛化到新场景，曾获斯隆推敲奖（Sloan Fellowship）、两次 Google 培植推敲奖，以及《海外机器东谈主推敲期刊》（IJRR）年度最好论文等荣誉。

他本东谈主亦然客岁 12 月 Google DeepMind 那篇激发宽泛关怀的 Veo 机器东谈主计谋评估责任的合营者之一，该推敲展示了若何用前沿视频生成模子 Veo 行为机器东谈主计谋的“全国仿真器”，通过 1，600 屡次真的全国评估考据了其灵验性。

在著述中，Majumdar 默示当前机器东谈主畛域的全国模子简直等同于视频生成模子，这条门道在观念粗略性、评估便利性、买卖推能源等方面领有阻挠低估的短期上风；但 Yann LeCun 倡导多年的潜辞全国模子（以 JEPA 架构为代表）在永劫域计算上更具远景，可能在五年独揽的时期步调上成为重要组件。两者并非你死我活的替代推敲，更可能走向协同。

以下是这篇博文的全文编译。

机器东谈主的全国模子

在机器东谈主学界，一个大致的共鸣似乎正迷漫在空气中：未来的通用计谋将开荒在“全国建模”的配方之上，而非迄今为止占主导地位的 VLM（Vision-Language Model，视觉话语模子）骨架决策。

论点如下：VLM 莫得被显式地试验来预测未来，因此在几何、空间和物理推理能力上，也等于预测动作概括终局所需的那类能力并不可靠。比较之下，全国模子允许机器东谈主“思象”未来以进行计算，举例：（1）生成一段思象中顺利引申的视频，再用逆能源学模子揣度所需动作；或者（2）平直使用一个以动行为要求的全国模子来优化计算。

2026 年头的机器东谈主学：全国模子＝视频模子

{jz:field.toptypename/}

在 2026 年头，机器东谈主畛域的全国建模由视频全国模子主导，即那些被试验来预测未来视频帧（以文本以及潜在的动行为要求）的生成式模子。这些模子开荒在视频建模畛域高大跳跃的基础之上：在互联网限制数据上试验的基于扩散的架构，概况生成惊东谈主传神的视频，包含复杂的物理交互，举例来自 Veo、Cosmos 和 Wan 的视频。

仅在昔时一年中，咱们就也曾看到历程机器东谈主数据微调的视频模子概况引申计谋评估、数据生成和推理时经餬口成；推敲综述可参阅文件［1］。就我个东谈主而言，参与 Veo 的计谋评估责任提供了一次高大的明白更新，看到如下所示的视频模子“仿真”，让我信赖视频模子终于到了不错在机器东谈主畛域大展本事的时刻。

视频模子的挑战

尽管终局令东谈主立志，当前统共用于机器东谈主的视频模子都受到解除组幻觉问题的困扰：物体诬捏复制、口耳之学、诬捏隐没，或者在自愿地或在被装束后再行出当前发生形变。

此外，永劫域生成是一个首要挑战：当前机器东谈主畛域的视频模子很难在特出 20-30 秒之后仍能产出高质料的生成终局。

潜辞全国模子：不要预测像素

从直观上看，开云体育(中国)官方网站视频建模关于全国模子而言似乎是一个无须要隘贵重的任务。预测布景中树叶通达的像素级细节，或者预测行将出现在我办公室门口的东谈主的精准面部特征，赫然是莫得必要的。

咱们不错转而构建一个潜辞全国模子（latent world model），只预测环境的某些特征。具体来说，通过预测可预测之物，咱们不错将表征能力围聚在信得过蹙迫的事情上，而不是那些细枝小节，比如在特定光照要求下物体的精准外不雅。

Yann LeCun 多年来也曾尽头有劲地发达了这一论点（参见他在普林斯顿机器东谈主谈判会上的演讲）。他在 Meta 和 NYU 的团队开发了多种形势的 JEPA（Joint-Embedding Predictive Architecture，联接镶嵌预测架构），这种架构学习不雅测的潜在表征，以预测其他（举例未来）不雅测的表征。

V-JEPA 2 展示了这种自监督学习若何涌现出有用的视频特征。此外，该责任还展示了模子的动作要求版块若何通过在推理时优化动作序列来完了机器东谈主计算。

潜辞全国模子的论点在永劫域任务上尤其有劝服力。预测全国在未来 10-20 秒内如安在像素层面演化似乎还说得昔时，但将这一步调彭胀到分钟或小时级别，既极其贵重，又皆备莫得必要。

为什么视频模子将在短期内胜出

在搏斗视频模子之前，开云体育app我曾被上述潜辞全国模子的论点所劝服；只预测全国显耀特征的极简主见法子照实很有招引力。然则，我思要论证的是，视频建模在时间和推行上有一些不应被低估的显耀上风。这些上风在一年前对我来说并不不言而谕，我但愿在这里把它们明确写出来能对其他东谈主有所匡助。

观念上的粗略性。视频建模的任务是明确无歧义的：预测未来帧。访佛于 LLM（Large Language Model，诳言语模子）的下一个 token 预测，一个澄莹的监督信号不错为下流任务带来考究的特征，以及诸如物体分割、视频裁剪和视觉推理等涌现能力。

这与 JEPA 造成昭着对比：预测可预测之物这一任务并非皆备指定的（not fully specified），要是完了不妥会导致表征坍缩——构建一个可预测镶嵌的最简便时势等于让它成为常数。

澄莹的评估盘算推算。对视频模子进行爬坡优化（hill-climbing）是骨鲠在喉的。有步调盘算推算（如 LPIPS 或 FID）不错用来评估视频生成的质料。JEPA 则否则，它优化的亏本函数并不一定与下流性能推敲（不外最近的 LeJepa 论文在这方面展现了一些积极迹象）。

推理时缩放与考据器。视频模子允许 VLM 被平直用作考据器。通过生成多段视频并用 VLM 打分，咱们不错过滤掉不真的或低质料的生成终局。这提供了一个粗略的推理时缩放配方。

视频模子赋能计谋评估。视频模子不错充任机器东谈主计谋的完好仿真器。为了引申闭环 rollout，仿真器的输出必须与计谋的输入匹配。关于视觉通达适度（visuomotor control），这就要求生成完好的图像（除非计谋被动在潜辞全国模子的潜在空间中吸收输入）。

视频模子与图像裁剪器的自然组合。视频模子不错吸收裁剪后的帧行为输入。正如咱们在 Veo 责任中所展示的，这提供了一个粗略的配方，用于在漫衍外（out-of-distribution）场景中进行计谋评估。

真的全国的不雅测不错被裁剪（举例引入新物体或布景），然后用于要求化计谋 rollout。不错思象，访佛的计谋也能用于视频模子在漫衍外场景中的数据生成（访佛于 DreamGen）。

高大的买卖激励。辅助视频模子的主要论点骨子上是一个非时间性的。开发好的视频生成模子濒临着高大的买卖压力。从外交媒体专揽到电影制作，视频模子将以独处于机器东谈主畛域的速率快速发展。

咱们也曾反复看到这部电影的剧情，从用于游戏的深度相机，到用于智妙手机的 IMU（Inertial Measurement Unit，惯性测量单位），再到用于 NLP（Natural Language Processing，）的 LLM——因独处买卖原因开发的时间，最终创新了机器东谈主学。雷同的事情很可能也会发生在视频模子身上。

在近期（2-3 年），我瞻望视频模子将不竭行为机器东谈主全国建模的主导力量。尤其是关于短时域操作任务，这仍然是现在机器东谈主学大部分推敲的北极星，我瞻望上述上风将特出潜辞全国模子的潜在收益。

JEPA 会在永远胜出吗？

JEPA 用于机器东谈主的中枢未解时间问题是：JEPA 学到的＂可预测特征＂是否等同于对机器东谈主有用的特征？可预测的特征自己并不一定有用——咱们老是不错预测阿谁将任何图像映射为常数的特征。然则，DINO 的存在提供了一个强有劲的凭据，它不错说是 JEPA 立场自监督学习最大的顺利案例。

DINO 特征在宽泛的下流视觉任务中赢得了着手进的终局，如分割、深度预测和物体检测。访佛的收益能否在机器东谈主全国建模中完了，仍然是一个通达问题。

为了超越视频模子，JEPA 还需要克服我上头强调的一些买卖压力。然则，LeCun 的 AMI 初创公司似乎有可能积贮满盈的资源来跨越这一扯后腿，并展示 JEPA 辞全国建模方面的威力。

要是让我在毛糙 5 年的时期线高下注，我会押注 JEPA 成为机器东谈主全国模子的重要构成部分。我怀疑，一朝咱们在基础操作妙技上赢得进展，特出几秒的时期跨度将信得过运转在机器东谈主学中变得蹙迫，届时 JEPA 在计算方面的上风应该会败走漏来。

然则，基于上一节强调的原因，我不以为 JEPA 会一双一地替代视频模子。领先，JEPA 和视频模子不错协同责任。事实上，咱们也曾看到了将两者结合的责任，举例用潜辞全国模子在推理时转换视频模子。此外，JEPA 的表征学习标的也不错与视频重建标的同期专揽。临了，关于计谋评估等用例，视频生成有尽头明确的上风（举例使用图像裁剪来生成场景变体）。

不做事情最终若何发展，这都是一个尽头欢喜东谈主心的时刻，不同的实体正鄙人注不同的门道，还有一些根人性的通达问题恭候处理。

参考云尔：

1.https://x.com/Majumdar_Ani/status/2021242532517040560

2.Mei et al.， 2026， \"Video Generation Models in Robotics -- Applications， Research Challenges， Future Directions\".

运营/排版：何晨龙

开云app 视频模子能处理机器东谈主“预测未来”的问题吗？短期能，永远不可

热点资讯

推荐资讯