Paper Morning 2026-06-29
2026-06-29
各位早上好,新的一周开始了,Paper Morning准时开播。
今天想先从一篇关于机器人智能的论文聊起。近几年Vision-Language-Action模型在机器人领域火得不行,但大家有没有注意到一个问题:这些模型换个摄像头角度或者换台机器人,就不好使了。Siyin Wang他们提出的In-Context World Modeling就是来解决这个问题的——它让机器人自己从一小段交互历史里推断出“我在哪、我是谁”这样的系统变量。这本质上把系统辨识变成了一个上下文学习问题,思路很直接,但我觉得它点出了一个很本质的东西:以前我们把机器人当作固定环境下的执行器,现在我们开始把机器人本身当作一个需要在运行时识别的变量。这个转变可能会催生一批更通用的机器人基础模型。
顺着机器人世界模型这个话题往下走,PhysisForcing这篇文章很有意思。它用物理知识来给视频生成模型加约束,让机器人的世界模拟器更可靠。研究者发现现在视频生成模型经常画出不可能的物理场景——比如物体突然断开、运动轨迹不连续——根本原因在于模型没有学到物体交互时的时空相关性。PhysisForcing的解决方案很巧妙:它不盲目监督整个画面,而是精准定位那些“物理信息丰富”的区域进行监督。这个思路其实很像我们做PDE求解时强调的“关注关键区域”——不是所有像素都同等重要,物理约束应该加在真正有意义的地方。
接下来聊聊强化学习的训练范式。OPID这篇文章处理的是一个很实际的问题:outcome-based RL给的奖励很稀疏,模型不知道中间每一步哪些决策做对了、哪些做错了。他们提出的方法是从已经完成的轨迹中提取“技能监督信号”,用层次化的方式——episode级别的技能描述整体工作流,step级别的技能监督每一步决策。这让我想到大语言模型里的chain-of-thought,两者都是在用更细粒度的中间信号来引导学习。不过我更关心的是:这个方法能不能推广到科学计算场景?比如我们在训练一个流体求解器的时候,是不是也可以从成功 simulation 里提取“物理直觉”作为监督?
然后是那篇关于coding agent奖励验证的文章。它提出了一个很犀利的观察:以前我们觉得验证一个解法比生成它容易,但现在这个假设正在被颠覆。当模型生成能力越来越强时,如何可靠地验证反而成了瓶颈。更深刻的是,作者指出任何verifier都只是人类意图的代理,而意图本身是模糊的;训练过程中模型会不断 exploited 这个差距。这就是我们常说的reward hacking。但这篇文章不是来给问题画句号的,它更多是在敲警钟——我们在设计AI for Science的评估体系时,是否也犯了同样的错误?当我们在benchmark上刷分时,有没有想过那些分数真的在衡量我们关心的科学能力吗?
最后回到我自己的老本行,电池领域的PINN工作。用物理信息神经网络来估计锂离子电池状态,这个方向其实已经有一段时间了。但这回他们加了迁移学习——用少量目标电池的数据来微调预训练模型。这其实呼应了我们前面聊到的foundation model思路:先在大规模通用数据上学物理规律,再在特定任务上快速适应。很有意思的是,NLP领域的预训练-微调范式正在被各个领域借鉴,从机器人到电池,不一而足。
总结一下今天的观察:本周的论文不约而同地指向一个趋势——不管是机器人世界建模、RL训练范式还是物理信息学习,大家都在做同一件事:把“通用能力”和“特定任务”解耦,再想办法高效地组合它们。这可能预示着AI4S正在从“做一个个具体模型”走向“构建可组合的智能系统”。好了各位,今天的播报就到这里,我们明天见。