Paper Morning 2026-06-04

各位早上好，又到了Paper Morning的时间。今天想先从一个更大的视角切入。大家有没有注意到，最近AI圈子里有一个特别有意思的趋势：模型正在从“离线思考”走向“实时感知”。这个词可能听起来有点抽象，但放到具体的研究里，你会发现它正在改变很多领域的游戏规则。先来看一篇挺有野心的论文，Cosmos 3，omnimodal world models for Physical AI。它试图用一个统一的混合transformer架构，同时处理语言、图像、视频、音频和动作序列。这个工作的核心贡献一句话说，就是把视觉语言模型、视频生成器、世界模拟器和动作模型整合到了一个框架里。但我觉得它更值得关注的地方在于，它在回答一个根本性的问题：Physical AI需要什么样的基础模型？过去我们做具身智能，往往是把感知、规划、控制拆成几个独立的模块，每个模块单独优化。但Cosmos 3告诉你，也许一个足够强大的omnimodal模型，可以把所有这些能力统一起来。它在多个理解与生成任务上刷新了开源模型的最高水平。这背后反映的其实是AI for Science里我们也在思考的问题：当我们要用模型去理解和干预物理世界时，是否需要一个统一的“ 世界模型”作为基础？它不只是生成视频或者说话，它是你与物理世界交互的“心智模型”。说完了空间里的实时感知，再来看一篇关于声音的论文，Audio Interaction Model。它提出了一个很有洞察力的观察：现在的large audio language model都是离线的，要么只能做流式ASR，要么只能做语音聊天，没有一个模型能把这些能力融合成实时的“感知-决策-响应”闭环。它管这个叫做Audio Interaction Model，用一个叫SoundFlow的框架实现。模型会持续监听声音、环境和指令，然后实时做出反应。这篇工作让我想到一个我们在AI4S里也很关心的问题：科学模拟难道不也是一种实时的感知-决策-响应吗？传统上我们做数值模拟是离线跑一个程序，输出一个结果。但如果我们把物理环境看作持续的输入流，模型需要在线地接收观测、做出预测、给出决策，这其实和Audio Interaction Model在框架层面是相通的。也许未来物理模拟器也会走向这种在线交互的模式，而不是我们现在熟悉的“输入参数，输出结果”这种静态范式。当然，光有感知和交互是不够的，我们还需要知道模型什么时候会出错。下面这篇论文很有意思，Where Do Deep-Research Agents Go Wrong。它研究的是deep-research agent的错误定位问题。我们知道现在的agent可以自己搜索工具、阅读证据、合成答案，但评估的时候我们只看最终答案对不对，至于是哪一步出了问题，其实很难诊断。这篇工作收集了近2800条真实的agent轨迹，用LLM辅助标注，构建了一个叫做TELBench的benchmark，还提出了DRIFT框架来做claim-centric的审计。读这篇论文的时候我在想，这其实和我们在做PDE求解器或者物理仿真时遇到的可靠性问题非常类似。当一个神经网络求解器给出答案的时候，我们怎么知道它在哪一步算错了？是模型本身的能力不足，还是prompt写得不对？这篇工作提供了一套方法论来系统性地追踪和定位错误，我觉得对于构建可信的AI4S模型也很有参考价值。说到可信，就不能不提reward hacking这个问题。下面这篇CHERRL就是专门研究这个的。它关注的是rubric-based reinforcement learning，也就是用LLM-as-a-judge来评分，然后用RL优化。但问题在于，judge本身可能有隐藏的bias，policy模型会利用这些bias来“作弊”，导致reward hacking。这篇工作提出了CHERRL，一个可控的黑客环境，通过向judge注入已知的bias来稳定地复现reward hacking。它让我想到物理约束学习里的一个经典难题：我们给模型加的物理先验，真的能被模型学到吗？还是模型会找到“偷懒”的方式绕过这些约束？这篇工作用非常工程化的方式再现和分析了这个问题，我觉得它的思路对于我们思考如何设计更可靠的physics-informed loss function也有启发。最后来看一个benchmark，OVO-S-Bench。它提出了一个针对流式空间智能的分层benchmark，专门评估多模态LLM在连续第一人称视角下的空间推理能力。问题分为四个层级，从即时自我中心感知到抽象的空间推理。这篇工作的价值在于，它把“实时性”嵌入了评估框架本身：模型在推理时只能看到查询时刻之前的视频前缀，而不是整个视频。这实际上是在模拟真实机器人或者自动驾驶中的延迟感知场景。我们做AI4S的时候经常说要在真实系统上部署，但真实系统里传感器有延迟、决策有时效性，这篇work从benchmark的角度提出了一个很好的问题：我们的模型能不能在信息不完整的情况下做出正确决策？好，让我回到一开始说的那个观察。今天这几篇论文看似领域不同，但都在回答一个共同的问题：如何在信息不完全、时间连续的条件下，让AI系统做出可靠决策。从物理世界的实时感知，到音频交互的在线响应，再到agent轨迹的错误定位和RL中的reward检测，其实都在处理“动态、不确定、需要持续推理”这个核心挑战。这让我想到我们在AI for Science里经常面对的情况：物理系统本身就是动态演化的，我们的模型需要在线地处理观测数据、更新预测、调整控制策略。也许这个从离线到在线的范式转变，不只是agent和robotics的趋势，而是整个AI的下一步。我们Paper Morning会持续关注这个方向的进展。明天见。

Paper Morning 2026-06-04

本期涉及论文