Paper Morning 2026-03-09
2026-03-09
各位早上好,Paper Morning开播了。
今天想和大家分享几篇近期有意思的论文,涵盖我们关心的神经算子、RL优化、AI agent这些方向,也包括一篇关于VLM效率提升的新工作。
先说第一篇,关于神经算子的弱监督学习。训练神经PDE求解器通常受限于昂贵的数据生成,或者因为高阶导数导致PINN训练不稳定。这篇论文提出了一种很有意思的替代方案:用Monte Carlo方法把PDE的解估计成随机过程,然后用Walk-on-Spheres算法产生弱监督信号来训练神经算子。关键在于,他们把Monte Carlo采样的成本分摊到了PDE实例的分布上,这样就能用很低的代价生成大量带噪声的解估计,用来做训练数据。我觉得这个思路的巧妙之处在于,它不是去硬磕求解器的精度,而是借助随机过程的数学性质,把一个确定性的难题转化成了一个统计估计问题。对我们做科学计算的人来说,这相当于多了一条可以走的路。
说完了PDE求解,我们来看看大语言模型强化学习的新进展。PPO里的clipping机制一直是稳定训练的关键,但这篇论文指出了一个容易被忽视的问题:固定不变的边界会过度压制低概率动作的更新空间,导致高优势的策略被不成比例地抑制,模型的entropy也会快速下降。BandPO这个工作提出了一个叫Band的算子,它把f-divergence定义的信任域投影到动态的、感知概率的区间里。理论分析表明,这样做能够有效解决探索不足的问题。我觉得这个工作的价值在于,它让我们重新思考RL中“约束”这件事——不是越紧越好,而是要随着策略的演化动态调整。
接下来换换口味,聊一篇关于VLM效率的论文。现在视觉语言模型的发展普遍依赖把模型做scale,这对手机、机器人这些算力受限的设备很不友好。这篇Penguin-VL做了一个有趣的尝试:不用CLIP或者SigLIP这种大规模对比学习训练出来的视觉编码器,而是用纯文本的LLM来初始化视觉编码器。作者指出,对比学习优化的目标是判别,这会强制产生粗粒度的类别不变性,反而压制了细粒度的视觉信息,而这些信息恰恰是密集描述和复杂推理所需要的。Penguin-VL在2B和8B规模的模型上做了实验,发现用LLM初始化的方式效果相当可观。这让我觉得,有时候打破一下固有的范式,反而能打开新思路。
说完了VLM,我们来看看AI agent的最新进展。SkillNet这个名字很直白,它想解决的是:现在的AI agent虽然能灵活调用工具完成复杂任务,但缺乏系统性的技能积累和迁移能力。没有统一的机制来沉淀技能,agent们经常在孤立的环境里重复造轮子。SkillNet这个工作提出了一个开放基础设施,可以大规模创建、评估和组织AI技能。它用统一的本体论来结构化技能,支持从不同来源创建技能,建立丰富的关联,还能从安全性、完整性、可执行性、可维护性和成本意识多个维度来评估。这让我想到,其实和我们做科学数据、构建benchmark的思路是一样的——与其让每个模型从头学,不如建立一个可复用的技能库。
最后一篇MOOSE-Star关注的是科学发现这个大问题。大语言模型在科学发现上很有潜力,但现有研究大多集中在推理或者反馈驱动的训练上,直接对生成假设这个过程P(假设|背景)建模的探索很少。这篇论文指出,直接训练这个条件概率在数学上是很困难的,因为需要从庞大的知识库中检索和组合灵感,涉及组合复杂性,复杂度是O(N的k次方)。MOOSE-Star通过在分解的子任务上训练,以及动机引导的分层推理,把复杂度从指数级降到了对数级O(log N)。这为科学发现这个方向打开了一个新的可能性空间。
好,今天的播报就到这里。回顾这几篇论文,我看到一个共同的关键词:“可扩展性”。WoS-NO通过随机过程让神经算子训练更可扩展,BandPO通过动态区间让RL训练更可扩展,SkillNet通过技能基础设施让agent能力更可扩展,MOOSE-Star则是在科学发现的训练上寻找可扩展的路径。而Penguin-VL提醒我们,在追求效率的道路上,改变初始化方式可能比单纯改模型架构更有效。祝大家今天工作顺利。