Paper Morning 2026-07-03

各位早上好，又到了周五，Paper Morning开播的时间了。今天想先从一个大家可能都有感受的现象说起。现在做AI for Science的大家，多多少少都在用大语言模型帮自己写代码、查文献、或者设计实验。但你有没有觉得，这个过程总有点“别扭”——你把一个任务描述给LLM，它给你一个回复，但你不知道这个“程序”到底是不是真的在你的控制之下。它可能随机应变，也可能一本正经地胡说八道。今天有几篇论文其实都在回答一个类似的问题：怎么让AI agent的行为变得更可预测、更可控、甚至可编译。第一篇 Program-as-Weights 提出了一种挺有意思的思路。他们把自然语言描述的模糊函数——比如“帮我标记重要的日志行”或者“修复格式错误的JSON”——编译成一个本地可执行的神经工件。核心做法是用一个4B参数的compiler，在10M规模的FuzzyBench数据集上训练，然后为冻结的轻量级解释器发射参数高效的adapters。听起来是不是有点像是把prompt固化成了一个小型模型？他们报告说，一个0.6B的Qwen3解释器执行PAW程序，性能可以和直接调用Qwen3-32B相匹配，但参数量只有大约五十分之一。这里有个很值得思考的问题：当我们要让AI在科学计算场景中执行精确操作时——比如从大量模拟数据中筛选符合某种物理规律的case——我们到底应该依赖prompt的灵活性，还是把这种“模糊函数”编译成更可控的形态？这篇工作给了一个中间的答案。第二篇 EvoPolicyGym 则是在评估自主策略演化这个更根本的问题。他们定义了一个叫做“autonomous policy evolution”的设置：让一个harness-model agent在固定交互预算下反复修改一个可执行策略系统。这和我们现在关心的“AI for Science”中的闭环实验非常接近——你给AI一个科学假设，让它设计实验、运行模拟、分析结果、然后根据反馈迭代改进。EvoPolicyGym构建了一套紧凑的交互式强化学习环境来做这件事。在他们的benchmark上，GPT-5.5取得了最强的综合排名。更有意思的是，他们提供了轨迹级别的诊断能力，这意味不只是看最终分数，还能看到策略是怎么一步步演进的。这对于科学发现的AI agent来说非常重要，因为我们往往不只是想知道AI做对了什么，更想知道它是怎么想到的。第三篇 AgenticSTS 提出了一个bounded-memory的测试平台，用的是Slay the Spire 2这个游戏。他们认为，传统的把过去所有观察、工具调用、反思都append到prompt里的做法，会把所有东西混成一团，难以分析单个记忆组件的作用。他们的做法是给每个决策一个fresh user message，通过typed retrieval来组装，prompt在任意长度的运行中保持bounded。这对于我们设计长程科研agent有直接启发——当你让AI帮你做多步骤的科学推理时，你不能把所有中间结果都塞进context然后祈祷它能分清楚，你需要更结构化的记忆机制。第四篇 PerceptionRubrics 关注的是多模态评估。他们指出现在很多benchmark分数已经饱和了，但真实应用时还是很脆弱。他们构建了一套基于rubric的评估框架，把评价从整体语义匹配转向原子级别的审计。特别有趣的是他们提出的Gated Scoring机制：对于必须正确的关键视觉事实，如果失败会触发二元惩罚，而不是线性的分数衰减。这个设计思想其实很值得借鉴到科学计算的评估中——我们评估一个PDE求解器，不能只看一个综合指标，有些物理约束是必须满足的，违反了就该一票否决。最后一篇 Morphing into Hybrid Attention Models 关注的是如何把标准Transformer转换成混合注意力模型，核心问题是在预算约束下选择哪些层保留full attention、哪些层换成线性注意力。他们把这个选择问题形式化为预算约束的子集优化，提出了FlashMorph方法。这个方向和科学计算有啥关系呢？你可能知道，现在很多科学模拟的瓶颈就在于长程相互作用的计算——比如分子动力学里远程库仑力，或者气候模型里的大气环流。混合注意力本质上就是在用更高效的方式处理长程依赖，这对科学计算中的大规模模拟很有意义。而且这篇的方法论本身也是一种“scaling law”思维——在固定计算预算下最优分配资源。好，让我总结一下今天的整体观察。今天这几篇论文，表面上看没有直接讨论neural operator或者PDE foundation model，但实际上都指向了一个共同的趋势：AI agent正在从“灵活的对话者”向“可控的、可编译的、可诊断的系统”演进。无论是把模糊函数编译成神经工件，还是设计结构化的记忆机制，或者建立带门控的评估rubric，大家都在回答同一个问题——怎么让AI在科学研究中不仅能帮忙，而且帮得明白、帮得可靠。对于我们做AI for Science的人来说，这其实比单纯讨论某个具体模型架构更有底层意义。因为最终，科学发现需要的是可信赖的自动化，而不是一个聪明的随机应变者。今天的分享就到这里，祝大家周末愉快。

Paper Morning 2026-07-03

本期涉及论文