Paper Morning 2026-06-09

各位早上好，周二的Paper Morning如约而至。今天想先从一个我们领域内外都在热议的话题聊起：AI agent到底有没有真正的能力提升？还是说我们现有的评测方式已经不足以衡量它的进步了？第一篇论文 Agents' Last Exam 提出的正是这个问题。作者认为，现在很多基准测试已经不能反映AI在实际经济价值任务中的表现了。他们与250多位行业专家合作，构建了一个关注长期任务、经济价值可验证的新评测框架ALE，覆盖55个子领域、13个行业集群。这让我想到我们在科学计算中经常讨论的“ 真问题”——到底什么样的任务才是有意义的？是解一个PDE，还是真正融入科研工作流？agent领域现在面临的评估困境，其实跟科学计算benchmark的问题很像：我们需要的是能够衡量“解决实际问题”能力的测试，而不是刷榜用的玩具数据。接下来这篇 LatentSkill 有意思的地方在于，它把agent的“技能”从prompt里搬到了模型权重里。具体做法是用一个预训练的超网络把文本技能转换成即插即用的LoRA适配器，这样技能知识就存储在权重空间而不是上下文空间。实验结果很亮眼，在ALFWorld上成功率提升了21.4个百分点，预填充token减少了64%。这让我想到，这不就是在科学计算里我们已经熟悉的预训练-微调范式吗？当NLP领域的scaling law思想渗透到agent训练中，技能积累从“往上下文堆砌”转向“在权重里沉淀”，效率和可扩展性都会上一个台阶。而且LatentSkill展示的模块化加载和组合能力，也让我们看到agent系统正朝着可组装、可复用的方向发展，这跟科学计算中模块化求解器的思路是一致的。第三篇 FlashMemory-DeepSeek-V4 解决的是一个非常工程化但关键的问题：超长上下文推理时GPU内存不够用。他们提出了Lookahead Sparse Attention，用一个神经记忆索引器主动预测未来上下文需求，只保留query关键的KV块在GPU内存里。更巧妙的是他们采用了无主干解耦训练策略——索引器完全独立训练，根本不需要加载庞大的主干模型到GPU里。这让我想到科学计算中我们经常面对的可扩展性挑战：当模型越来越大，如何在保持能力的同时降低推理成本，已经不仅是工程问题，也是科学问题。这篇工作给出了一个很务实的思路：与其幻想显存自动变大，不如让模型学会“按需加载”。然后是今天最让我兴奋的一篇，Topological Neural Operators。这个工作把神经算子从点或边的函数推广到了胞腔复形上的拓扑域，用离散外微分运算实现跨维度耦合。什么意思呢？简单说，他们让模型能够同时处理不同维度的几何对象及其相互作用，而且这种耦合是通过梯度型、旋度型、散度型算子实现的，是有物理意义的。更有意思的是他们的设计原则：把“信息往哪里流动”这件事交给固定的拓扑算子去管，而“信息怎么流动”才是学习的目标。这不正是我们物理学家最熟悉的思路吗？守恒律、兼容性条件，这些几何先验被编码到了网络架构里。虽然目前还在概念验证阶段，但我觉得这为处理多尺度多物理问题提供了一个有原则的理论框架，值得关注。最后一篇 WorldCraft 展示的是交互式视频世界模型的最新进展。他们把交互能力从相机导航扩展到了物体级别——用户不仅可以移动视角，还可以点击某个物体并画出它的运动轨迹，模型据此生成连贯的后续帧。这本质上是在像素空间里构建了一个可控的物理模拟环境。让我想到科学计算里的数字孪生或者可交互的仿真系统：我们不仅想知道系统会怎么演化，还想能够干预它、操控它。WorldCraft虽然目前只是在合成视频上展示，但它展示的object-centric交互能力，可能是通向真正可交互的物理世界模型的重要一步。好，最后总结一下今天的整体观察。这五篇论文看似分散，但我觉得它们在指向同一个趋势：AI正在从“被动预测”走向“主动交互”。无论是评估agent的真实能力，还是让模型学会按需加载技能和知识，或者是构建可交互的世界模型，核心都是让AI不仅仅是一个答题机器，而是成为一个能够理解任务、积累能力、并且可以被人指挥着去解决问题的伙伴。这个趋势在科学计算领域同样明显——我们要的不只是拟合数据的模型，而是能够真正辅助科学发现的智能系统。这才是我们期待的未来。

Paper Morning 2026-06-09

本期涉及论文