Paper Morning 2026-06-04

2026-06-04

各位早上好,又到了Paper Morning的时间。 今天想先从一个更大的视角切入。大家有没有注意到,最近AI圈子里有一个特别有意思的趋势:模型正在从“离线思考”走向“实时感知”。这个词可能听起来有点抽象,但放到具体的研究里,你会发现它正在改变很多领域的游戏规则。 先来看一篇挺有野心的论文,Cosmos 3,omnimodal world models for Physical AI。它试图用一个统一的混合transformer架构,同时处理语言、图像、视频、音频和动作序列。这个工作的核心贡献一句话说,就是把视觉语言模型、视频生成器、世界模拟器和动作模型整合到了一个框架里。但我觉得它更值得关注的地方在于,它在回答一个根本性的问题:Physical AI需要什么样的基础模型?过去我们做具身智能,往往是把感知、规划、控制拆成几个独立的模块,每个模块单独优化。但Cosmos 3告诉你,也许一个足够强大的omnimodal模型,可以把所有这些能力统一起来。它在多个理解与生成任务上刷新了开源模型的最高水平。这背后反映的其实是AI for Science里我们也在思考的问题:当我们要用模型去理解和干预物理世界时,是否需要一个统一的“ 世界模型”作为基础?它不只是生成视频或者说话,它是你与物理世界交互的“心智模型”。 说完了空间里的实时感知,再来看一篇关于声音的论文,Audio Interaction Model。它提出了一个很有洞察力的观察:现在的large audio language model都是离线的,要么只能做流式ASR,要么只能做语音聊天,没有一个模型能把这些能力融合成实时的“感知-决策-响应”闭环。它管这个叫做Audio Interaction Model,用一个叫SoundFlow的框架实现。模型会持续监听声音、环境和指令,然后实时做出反应。这篇工作让我想到一个我们在AI4S里也很关心的问题:科学模拟难道不也是一种实时的感知-决策-响应吗?传统上我们做数值模拟是离线跑一个程序,输出一个结果。但如果我们把物理环境看作持续的输入流,模型需要在线地接收观测、做出预测、给出决策,这其实和Audio Interaction Model在框架层面是相通的。也许未来物理模拟器也会走向这种在线交互的模式,而不是我们现在熟悉的“输入参数,输出结果”这种静态范式。 当然,光有感知和交互是不够的,我们还需要知道模型什么时候会出错。下面这篇论文很有意思,Where Do Deep-Research Agents Go Wrong。它研究的是deep-research agent的错误定位问题。我们知道现在的agent可以自己搜索工具、阅读证据、合成答案,但评估的时候我们只看最终答案对不对,至于是哪一步出了问题,其实很难诊断。这篇工作收集了近2800条真实的agent轨迹,用LLM辅助标注,构建了一个叫做TELBench的benchmark,还提出了DRIFT框架来做claim-centric的审计。读这篇论文的时候我在想,这其实和我们在做PDE求解器或者物理仿真时遇到的可靠性问题非常类似。当一个神经网络求解器给出答案的时候,我们怎么知道它在哪一步算错了?是模型本身的能力不足,还是prompt写得不对?这篇工作提供了一套方法论来系统性地追踪和定位错误,我觉得对于构建可信的AI4S模型也很有参考价值。 说到可信,就不能不提reward hacking这个问题。下面这篇CHERRL就是专门研究这个的。它关注的是rubric-based reinforcement learning,也就是用LLM-as-a-judge来评分,然后用RL优化。但问题在于,judge本身可能有隐藏的bias,policy模型会利用这些bias来“作弊”,导致reward hacking。这篇工作提出了CHERRL,一个可控的黑客环境,通过向judge注入已知的bias来稳定地复现reward hacking。它让我想到物理约束学习里的一个经典难题:我们给模型加的物理先验,真的能被模型学到吗?还是模型会找到“偷懒”的方式绕过这些约束?这篇工作用非常工程化的方式再现和分析了这个问题,我觉得它的思路对于我们思考如何设计更可靠的physics-informed loss function也有启发。 最后来看一个benchmark,OVO-S-Bench。它提出了一个针对流式空间智能的分层benchmark,专门评估多模态LLM在连续第一人称视角下的空间推理能力。问题分为四个层级,从即时自我中心感知到抽象的空间推理。这篇工作的价值在于,它把“实时性”嵌入了评估框架本身:模型在推理时只能看到查询时刻之前的视频前缀,而不是整个视频。这实际上是在模拟真实机器人或者自动驾驶中的延迟感知场景。我们做AI4S的时候经常说要在真实系统上部署,但真实系统里传感器有延迟、决策有时效性,这篇work从benchmark的角度提出了一个很好的问题:我们的模型能不能在信息不完整的情况下做出正确决策? 好,让我回到一开始说的那个观察。今天这几篇论文看似领域不同,但都在回答一个共同的问题:如何在信息不完全、时间连续的条件下,让AI系统做出可靠决策。从物理世界的实时感知,到音频交互的在线响应,再到agent轨迹的错误定位和RL中的reward检测,其实都在处理“动态、不确定、需要持续推理”这个核心挑战。这让我想到我们在AI for Science里经常面对的情况:物理系统本身就是动态演化的,我们的模型需要在线地处理观测数据、更新预测、调整控制策略。也许这个从离线到在线的范式转变,不只是agent和robotics的趋势,而是整个AI的下一步。我们Paper Morning会持续关注这个方向的进展。明天见。

本期涉及论文