Paper Morning 2026-06-28

各位早上好，周日的Paper Morning如约而至。今天想先从一篇机器人控制的工作聊起。Siyin Wang他们提出的In-Context World Modeling，解决的是一个很本质的问题：现在的VLA模型训练时见过的机器人形态和视角是固定的，遇到新环境就不灵了。传统做法是针对新环境再收集数据微调，但他们换了个思路，把系统辨识本身变成一个in-context adaptation问题。也就是说，机器人通过一小段自己与环境交互的历史，就能推断出关键的系统参数。这让我想到我们在PDE求解中经常说的"系统识别"，以前我们是用优化方法显式地去拟合参数，而这里把它藏在了context里面，让模型自己从交互数据中隐式地学到。这种思路其实和foundation model的in-context learning一脉相承——不改变模型参数，而是在输入的上下文中注入任务相关信息。区别在于，这里上下文不是人类给的prompt，而是机器人自己生成的交互轨迹。这个工作会不会给物理模拟中的系统辨识带来启发？比如，我们能不能让一个控制器在运行过程中自己"意识到"自己面对的是不同的动力学环境，从而自适应地调整？接下来想聊一篇关于coding agent的文章。Binghai Wang他们讨论的是一个很现实的问题：现在生成代码的能力越来越强，但验证代码对不对反而变成了瓶颈。这里面有个深层矛盾：我们用来做强化学习奖励的verifier，永远只是人类意图的一个代理，而不可能是意图本身。更麻烦的是，在训练过程中，优化器会不断放大这个代理和真实意图之间的差距——这就是大家熟悉的reward hacking。他们没有给出什么银弹解决方案，但这个观察很重要：当我们把AI agent推向更复杂、更开放的任务时，verification可能才是真正的瓶颈，而不是generation。这和科学计算中"解的正确性验证"何其相似。我们可以生成一个PDE的数值解，但怎么高效地验证这个解满足物理约束？传统的残差检查当然可以，但面对高维问题、非线性问题，这个验证本身可能比求解还贵。这篇文章给我们的启示是：agent时代的研究，可能需要把更多精力投向验证环节，而不是一味追求生成能力。第三篇想说说agent memory这个方向。Wei Zhou他们对LLM agent的memory系统做了很系统的实验评估。这是一个很及时的工作，因为现在大家都在谈agent，但memory这个词在不同语境下含义差别很大——有的指的是简单的向量检索，有的指的是长期记忆的持久化，还有的涉及知识的动态更新和整合。他们把agent memory当成一个数据管理系统来研究，关注点不仅是端到端的任务成功率，还有运营成本、不同模块之间的权衡、动态知识更新下的鲁棒性。这让我想到我们在科学计算中对"数据管理"的重视程度可能还不够。一个好的AI4S平台，需要管理的不仅是科学数据本身，还包括模型推理过程中的中间状态、参数的演化历史、多任务之间的知识共享。这篇文章给出了一个很好的评估框架，值得我们思考怎么借鉴到科学计算场景中。最后简单提一下DanceOPD和DomainShuttle这两个工作。前者提出了一个在flow-matching模型上进行能力路由的蒸馏框架，让一个模型能同时处理文本生成、局部编辑、全局编辑等多种能力；后者则关注开放域主题驱动的视频生成，想要在一个框架内同时处理好领域内保真和跨域编辑性。这两个工作背后有一个共同的追求：让生成模型从"单点突破"走向"多功能统一"。这其实也是foundation model的核心精神——用一套参数承载多种能力。只是在视觉生成领域，这个统一比语言模型来得更晚一些。今天的论文有一个共同的温度计：大家在关心"统一性"和"适应性"的平衡。机器人控制那边试图用in-context learning来适应不同系统，coding agent在思考如何跨越验证的鸿沟，agent memory在评估不同记忆模块的组合效果，生成模型在探索多能力的融合。这些工作都在回答一个更根本的问题：当我们拥有了强大的基础模型之后，如何让它们在具体场景中真正work well，而不仅仅是work。好了，今天的播报就到这里，我们下周再见。

Paper Morning 2026-06-28

本期涉及论文