Paper Morning 2026-06-28

2026-06-28

各位早上好,周日的Paper Morning如约而至。 今天想先从一篇机器人控制的工作聊起。Siyin Wang他们提出的In-Context World Modeling,解决的是一个很本质的问题:现在的VLA模型训练时见过的机器人形态和视角是固定的,遇到新环境就不灵了。传统做法是针对新环境再收集数据微调,但他们换了个思路,把系统辨识本身变成一个in-context adaptation问题。也就是说,机器人通过一小段自己与环境交互的历史,就能推断出关键的系统参数。这让我想到我们在PDE求解中经常说的"系统识别",以前我们是用优化方法显式地去拟合参数,而这里把它藏在了context里面,让模型自己从交互数据中隐式地学到。这种思路其实和foundation model的in-context learning一脉相承——不改变模型参数,而是在输入的上下文中注入任务相关信息。区别在于,这里上下文不是人类给的prompt,而是机器人自己生成的交互轨迹。这个工作会不会给物理模拟中的系统辨识带来启发?比如,我们能不能让一个控制器在运行过程中自己"意识到"自己面对的是不同的动力学环境,从而自适应地调整? 接下来想聊一篇关于coding agent的文章。Binghai Wang他们讨论的是一个很现实的问题:现在生成代码的能力越来越强,但验证代码对不对反而变成了瓶颈。这里面有个深层矛盾:我们用来做强化学习奖励的verifier,永远只是人类意图的一个代理,而不可能是意图本身。更麻烦的是,在训练过程中,优化器会不断放大这个代理和真实意图之间的差距——这就是大家熟悉的reward hacking。他们没有给出什么银弹解决方案,但这个观察很重要:当我们把AI agent推向更复杂、更开放的任务时,verification可能才是真正的瓶颈,而不是generation。这和科学计算中"解的正确性验证"何其相似。我们可以生成一个PDE的数值解,但怎么高效地验证这个解满足物理约束?传统的残差检查当然可以,但面对高维问题、非线性问题,这个验证本身可能比求解还贵。这篇文章给我们的启示是:agent时代的研究,可能需要把更多精力投向验证环节,而不是一味追求生成能力。 第三篇想说说agent memory这个方向。Wei Zhou他们对LLM agent的memory系统做了很系统的实验评估。这是一个很及时的工作,因为现在大家都在谈agent,但memory这个词在不同语境下含义差别很大——有的指的是简单的向量检索,有的指的是长期记忆的持久化,还有的涉及知识的动态更新和整合。他们把agent memory当成一个数据管理系统来研究,关注点不仅是端到端的任务成功率,还有运营成本、不同模块之间的权衡、动态知识更新下的鲁棒性。这让我想到我们在科学计算中对"数据管理"的重视程度可能还不够。一个好的AI4S平台,需要管理的不仅是科学数据本身,还包括模型推理过程中的中间状态、参数的演化历史、多任务之间的知识共享。这篇文章给出了一个很好的评估框架,值得我们思考怎么借鉴到科学计算场景中。 最后简单提一下DanceOPD和DomainShuttle这两个工作。前者提出了一个在flow-matching模型上进行能力路由的蒸馏框架,让一个模型能同时处理文本生成、局部编辑、全局编辑等多种能力;后者则关注开放域主题驱动的视频生成,想要在一个框架内同时处理好领域内保真和跨域编辑性。这两个工作背后有一个共同的追求:让生成模型从"单点突破"走向"多功能统一"。这其实也是foundation model的核心精神——用一套参数承载多种能力。只是在视觉生成领域,这个统一比语言模型来得更晚一些。 今天的论文有一个共同的温度计:大家在关心"统一性"和"适应性"的平衡。机器人控制那边试图用in-context learning来适应不同系统,coding agent在思考如何跨越验证的鸿沟,agent memory在评估不同记忆模块的组合效果,生成模型在探索多能力的融合。这些工作都在回答一个更根本的问题:当我们拥有了强大的基础模型之后,如何让它们在具体场景中真正work well,而不仅仅是work。 好了,今天的播报就到这里,我们下周再见。

本期涉及论文