Paper Morning 2026-06-09

2026-06-09

各位早上好,周二的Paper Morning如约而至。 今天想先从一个我们领域内外都在热议的话题聊起:AI agent到底有没有真正的能力提升?还是说我们现有的评测方式已经不足以衡量它的进步了? 第一篇论文 Agents' Last Exam 提出的正是这个问题。作者认为,现在很多基准测试已经不能反映AI在实际经济价值任务中的表现了。他们与250多位行业专家合作,构建了一个关注长期任务、经济价值可验证的新评测框架ALE,覆盖55个子领域、13个行业集群。这让我想到我们在科学计算中经常讨论的“ 真问题”——到底什么样的任务才是有意义的?是解一个PDE,还是真正融入科研工作流?agent领域现在面临的评估困境,其实跟科学计算benchmark的问题很像:我们需要的是能够衡量“解决实际问题”能力的测试,而不是刷榜用的玩具数据。 接下来这篇 LatentSkill 有意思的地方在于,它把agent的“技能”从prompt里搬到了模型权重里。具体做法是用一个预训练的超网络把文本技能转换成即插即用的LoRA适配器,这样技能知识就存储在权重空间而不是上下文空间。实验结果很亮眼,在ALFWorld上成功率提升了21.4个百分点,预填充token减少了64%。这让我想到,这不就是在科学计算里我们已经熟悉的预训练-微调范式吗?当NLP领域的scaling law思想渗透到agent训练中,技能积累从“往上下文堆砌”转向“在权重里沉淀”,效率和可扩展性都会上一个台阶。而且LatentSkill展示的模块化加载和组合能力,也让我们看到agent系统正朝着可组装、可复用的方向发展,这跟科学计算中模块化求解器的思路是一致的。 第三篇 FlashMemory-DeepSeek-V4 解决的是一个非常工程化但关键的问题:超长上下文推理时GPU内存不够用。他们提出了Lookahead Sparse Attention,用一个神经记忆索引器主动预测未来上下文需求,只保留query关键的KV块在GPU内存里。更巧妙的是他们采用了无主干解耦训练策略——索引器完全独立训练,根本不需要加载庞大的主干模型到GPU里。这让我想到科学计算中我们经常面对的可扩展性挑战:当模型越来越大,如何在保持能力的同时降低推理成本,已经不仅是工程问题,也是科学问题。这篇工作给出了一个很务实的思路:与其幻想显存自动变大,不如让模型学会“按需加载”。 然后是今天最让我兴奋的一篇,Topological Neural Operators。这个工作把神经算子从点或边的函数推广到了胞腔复形上的拓扑域,用离散外微分运算实现跨维度耦合。什么意思呢?简单说,他们让模型能够同时处理不同维度的几何对象及其相互作用,而且这种耦合是通过梯度型、旋度型、散度型算子实现的,是有物理意义的。更有意思的是他们的设计原则:把“信息往哪里流动”这件事交给固定的拓扑算子去管,而“信息怎么流动”才是学习的目标。这不正是我们物理学家最熟悉的思路吗?守恒律、兼容性条件,这些几何先验被编码到了网络架构里。虽然目前还在概念验证阶段,但我觉得这为处理多尺度多物理问题提供了一个有原则的理论框架,值得关注。 最后一篇 WorldCraft 展示的是交互式视频世界模型的最新进展。他们把交互能力从相机导航扩展到了物体级别——用户不仅可以移动视角,还可以点击某个物体并画出它的运动轨迹,模型据此生成连贯的后续帧。这本质上是在像素空间里构建了一个可控的物理模拟环境。让我想到科学计算里的数字孪生或者可交互的仿真系统:我们不仅想知道系统会怎么演化,还想能够干预它、操控它。WorldCraft虽然目前只是在合成视频上展示,但它展示的object-centric交互能力,可能是通向真正可交互的物理世界模型的重要一步。 好,最后总结一下今天的整体观察。这五篇论文看似分散,但我觉得它们在指向同一个趋势:AI正在从“被动预测”走向“主动交互”。无论是评估agent的真实能力,还是让模型学会按需加载技能和知识,或者是构建可交互的世界模型,核心都是让AI不仅仅是一个答题机器,而是成为一个能够理解任务、积累能力、并且可以被人指挥着去解决问题的伙伴。这个趋势在科学计算领域同样明显——我们要的不只是拟合数据的模型,而是能够真正辅助科学发现的智能系统。这才是我们期待的未来。

本期涉及论文