NEWTON:等物理涌现到请牛顿进工具箱，Agent 驱

互联网 0 7

本条新闻为单纯事实消息的时事新闻，转载自机器之心Pro，版权归源站所有，如有侵权，烦请联系我们。

近年来，视频生成模型发展迅猛。从 Sora、Veo、Kling 到一系列开源视频生成模型，文生视频已经逼近真实影像的观感 —— 画面清晰、镜头流畅、风格可控，一句话就能生成一段观感不错的视频。

然而，当我们把目光从 “像不像” 转向 “对不对” 时，一个深刻的问题开始浮出水面：当前视频生成模型虽然擅长制造视觉真实感，却并不真正理解物理世界。

一个球可能在没有接触的情况下突然改变速度；一个下落物体可能无视重力；碰撞、流体、切削、堆积、弹跳等动态过程，经常看起来合理，却经不起基本物理常识的检验。在 VideoPhy-2 这类面向物理常识的视频评测中，即便是表现最好的模型，联合准确率也只有 32.6%。这说明，视频生成距离真正的 “世界模拟器”，仍然存在一条关键鸿沟。

于是，浙江大学、香港理工大学、树根科技与三一集团联合提出的 NEWTON（Neural Agentic World-Aware Tool-Orchestrated Navigation）—— 把 Agent 范式搬进视频生成里：与其继续把物理硬塞进生成器的权重里，不如让一个会规划、会调用物理工具、会自查自纠的 Agent，把生成器 “降级” 成它工具箱里的一件兵器。

论文标题：NEWTON: Agentic Planning for Physically Grounded Video Generation
论文地址：https://arxiv.org/abs/2605.18396
项目主页：https://newton026.github.io/newton/

视频生成为什么总是 “物理不稳”？

过去我们习惯认为，只要模型足够大、数据足够多，它终将学会真实世界的物理规律。但 NEWTON 指出，问题的根源并不在模型本身 —— 而是输入本身就不足以唯一确定一段物理自洽的视频，再大的模型也补不回输入端缺失的信息。

文本提示词本质上是对物理世界的高度压缩。比如一句 “啤酒被倒进杯子直到装满”，看似已经描述清楚了事件，但实际上省略了大量决定动态过程的参数：容器形状、泡沫生成、液面上升速度等。模型拿到的只是一句自然语言，却被期待生成一个完整、连续、符合物理规律的视频。换句话说，模型是在信息严重不足的前提下，被要求交出一个物理自洽的完整答案。

关键信息一旦缺失，模型就只能在不完整条件下做幻觉式补全：单帧也许漂亮，时间维度上却处处露馅 —— 液面不升高、刀划过木头却没有凹槽、颗粒倒下却不堆积、物体碰撞却毫无反应。

所以，物理可靠的视频生成不能押在一句 prompt 上。它至少要同时满足三件事：信息要够，能补齐影响动态的物理变量；过程要活，能针对不同场景调用不同的物理工具；结果要能查，生成之后能发现问题、回头修正。

而现有方法往往只能顾上其中一两条。端到端模型把物理知识隐式压进参数，输入端的条件本身就不完整；ControlNet 一类方法依赖预设的单一模态信号，难以随场景切换，缺乏动态性；单轮生成则没有反馈回路，结果不对也无从修起。

NEWTON 的破局思路：把生成变成一个可规划、可验证的过程

NEWTON 的核心变化，是重新定义视频生成系统的工作方式

传统范式很短：用户输入 prompt，生成器直接输出视频。这意味着所有物理细节都得由生成器自己一次性猜出来。NEWTON 把这一步改造成了一个多轮 Agent 循环 ——Planner 先分析当前任务缺哪些物理信息、该调哪些工具，Executor 执行工具调用和视频生成，Verifier 给结果打一个物理合理性分数，再把反馈写回下一轮规划。视频生成器在这个循环里不再是唯一主角，只是工具箱里的一个动作；真正负责组织过程的，是可训练的 Planner。

工具库覆盖的是互补的物理维度：

关键帧生成工具给视频补充时间边界条件，比如规定抛物线运动在中间帧到达最高点，或要求倒酒时杯内液面随时间逐步升高；
科学计算工具在沙盒 Python 环境里算轨迹、动量守恒、旋转动力学等数值结果，把人类熟悉的物理推理显式写进生成上下文；
提示词优化工具则负责把材料属性、动作阶段、因果关系重新组织成生成器更容易 "听懂" 的条件

更关键的是，NEWTON不需要改动底层的视频生成模型。无论用的是 LTX-Video 还是 Veo-3.1，生成器始终保持冻结。整套系统里真正需要训练的只有 Planner—— 它通过 Flow-GRPO 在真实的多轮工具调用流程中做 on-policy 优化，逐步学会：什么时候该算物理、什么时候该生成关键帧、什么时候该重写场景描述、什么时候该真正触发视频生成。

这样的设计，使得 "物理能力" 不再被困在某一个生成模型内部，而是被抽出来，变成一种可组合、可检查、可迁移的 Agent 行为。

实验表现：不改生成器，也能显著提升物理一致性

在 VideoPhy-2 基准上，NEWTON 展现出了稳定提升。接入 LTX-Video 后，联合准确率从 21.4% 提升到 29.7%；接入 Veo-3.1 后，在选取的测试集中从 30.7% 提升到 37.4%。这些提升并非来自重训视频生成器，而是来自 Planner 对物理工具、关键帧条件和反馈循环的组织能力。这意味着，即使底层生成器保持不变，只要把 “生成前的物理规格补齐” 和 “生成后的验证修正” 纳入系统流程，视频生成的物理可靠性就能被显著改善。

在具体案例中：倒啤酒时，NEWTON 让杯子随注入逐渐被填满，基线却出现 "杯子早就满了"" 怎么倒都倒不进去 ""泡沫在长液面不动" 这类荒诞画面；刀刻木头时，只有 NEWTON 同时刻出凹槽和木屑；吹泡泡和 LEGO 橄榄球交接的镜头也呈现同样的规律 —— 基线模型常常是 "动作发生了，但世界状态没变"，而 NEWTON 能把液面上升、材料移除、颗粒堆积、受力反弹这些有因果的动态完整地呈现出来。

总结

NEWTON 的意义不只在于提升了某个评测指标，更在于它提出了一种视频生成的新范式：未来的视频模型也许不应只是一个端到端的视觉合成器，而应成为 Agent 系统中的一个可调用模块。

当任务涉及真实世界的动态规律时，系统需要的不只是更强的渲染能力，还需要知道缺了什么信息、该调用什么工具、如何验证结果，以及失败后如何重新规划。

从这个角度看，NEWTON 给 “世界模拟器” 提供了一条更务实的路径：不是等待物理规律从黑箱中自然涌现，而是把牛顿请进工具箱，让 Agent 带着物理知识，一步步把视频生成得更真实、更可信。

点赞 0 收藏(0)

0个评论

消灭零评论