Paper Morning 2026-07-02

2026-07-02

各位早上好,周四的Paper Morning如约而至。 今天想先聊一篇让我思考了很久的论文——关于VLA模型到底保留了多少常识。这篇标题是Does VLA Even Know the Basics?来自HuggingFace热榜。它提出了一个很有意思的问题:我们现在训练机器人做动作,是从强大的视觉语言模型微调来的,但微调之后,它原来学到的那些常识知识、世界知识还剩多少?这确实是个很实际的问题。以前我们可能看到机器人fail了,搞不清到底是它“不知道”还是它“知道了但做不好”。这篇文章的做法很聪明,叫做Act2Answer——不让它直接回答问题,而是让它通过选择一个物体的摆放位置来“投票”。这样就把“控制能力”和“知识水平”给解耦了。这是一个增量改进,但它提醒我们一个重要的问题:foundation model的能力在迁移到具体任务时,是否存在我们以为已经解决但其实并未解决的损耗?这在我们AI4S领域 тоже适用——当我们在PDE求解器里嵌入一个预训练的视觉或语言组件时,它的知识真的能被有效利用吗? 聊完VLA,我们来 看一篇和我们核心方向直接相关的论文——GAIA: Geometry-Adaptive Operator Learning for Forward and Inverse Problems。这篇论文关注的是神经算子在几何自适应方面的进展。大家知道,这几年geometry-adaptive neural operator进展很快,但大多数方法只能处理前向问题,也就是输入输出在同一个空间域上。但真实的科学计算中,大量问题是边界值问题或者逆问题,输入和输出domain可能完全不同。比如,给定边界条件求内部场,和给定部分观测求整个系统参数,这是两类非常不同的问题。这篇GAIA引入了Geometry-Adaptive Integral Autoencoder,用几何token来编码边界和内部场分布,然后通过cross-attention让积分核自适应局部几何特征。这在我看来是一个真正的推进——它把算子学习从“同一个domain上的前向映射”拓展到了“不同domain之间的前向和逆向映射”。这对我们的意义在于,它让神经算子更接近真实物理问题的需求了。当然,具体效果怎么样,还需要看它在复杂几何上的泛化能力。 接下来这篇Valdi: Value Diffusion World Models,标题里把diffusion和world model连在一起,挺有意思。它想解决的问题是:world model需要同时满足两个要求——够快,能在线上做模型预测控制;够 expressive,能建模不确定的未来。Diffusion本身是很expressive的,但它的迭代推理太慢了。这篇的思路是把diffusion放到latent space去做,然后在训练和推理时都只用一个diffusion step,这样就兼顾了速度和多模态。在CarRacing环境上的实验显示,单步diffusion能达到deterministic MLP baseline的水平。但有趣的是,实验暴露了一个trade-off:预测的多模样性和控制性能之间存在冲突。这其实是一个挺深刻的观察——在很多物理模拟场景里,我们也需要建模不确定性,但过度的不确定性反而会降低控制的稳健性。这篇工作还在初步阶段,但它指向的方向值得关注。 然后是一篇评估相关的论文PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception。它指出一个我们都很熟悉但很少深究的问题:benchmark分数已经饱和了,但实际应用中还是各种拉胯。原因是评估方式和人类感知之间存在gap。这篇提出了一个基于rubric的评估框架,把整体语义匹配拆解成原子级别的审计,并且区分了Must-Right(必须正确的核心事实)和Easy-Wrong(容易被忽略的细节)。更重要的是,它引入了Gated Scoring机制——如果核心事实错了,不管其他部分多好,直接判定失败。这其实是一种更严格的评估范式。它揭示的 Reliability Gap 对我们AI4S也有启发:当我们在PDE求解、分子生成这些任务上刷指标的时候,有没有问过自己,这些指标真的对应了人类关心的物理正确性吗? 最后一篇SkillHone: A Harness for Continual Agent Skill Evolution Through Persistent Decision History,讲的是怎么让智能体的技能持续进化。它指出了一个很实际的问题:以前的方法只保留最终artifact,但中间那些诊断、修订、评估的决策过程全丢了。后来者没法从中学到“为什么这个版本被否了”。SkillHone的做法是保留完整的决策历史,让智能体在每次修订时都能看到之前的诊断和评估证据。这其实是一种“持续学习”的思路,但它强调的是“决策过程的可追溯性”。这个思想对科学计算的模型迭代 тоже有价值——我们在训练PDE求解器时,能不能也保留每次失败的诊断记录,让后续的改进更有方向? 好,今天的五篇论文就聊到这里。我有一个整体的观察:这一周的论文其实在回答同一个隐含问题——当我们把AI的能力从泛化的foundation model迁移到具体任务时,到底丢失了什么?VLA丢失了常识,标准算子丢失了跨domain的能力,diffusion丢失了速度,多模态评估丢失了可靠性,而技能演化丢失了决策过程。这五篇论文从不同角度给出了“诊断”,而诊断之后,下一个阶段就是“治疗”了。今天的Paper Morning就到这里,我们明天继续。

本期涉及论文