Paper Morning 2026-06-22

2026-06-22

各位早上好,周一的Paper Morning开播了。上周我刚跟一位做科学计算的朋友聊,他说现在工业界都在卷大模型,但他们实验室更关心怎么用小模型解决实际问题。今天这几篇论文恰好都指向同一个趋势:与其堆算力,不如在架构和范式上找效率。 先看第一篇,Moebius,一篇关于轻量级图像修复的工作。现在工业界的图像修复模型动辄十亿参数,效果确实好,但部署成本太高。这篇文章的思路是与其在十亿参数的大模型上做压缩,不如从头设计一个针对修复任务的专用架构。他们提出了一个叫Local-λ Mix Interaction的模块,核心想法是把空间上下文和全局语义压缩到固定大小的矩阵里,既保留了复杂的潜在交互,又大幅减少了参数量。两百兆的模型,达到十亿级模型的性能。这让我想起我们AI4S社区讨论的一个话题:做PDE求解器的时候,是不是也要考虑从通用架构走向任务专用的高效设计?Foundation Model固然好,但如果我们能把神经算子的结构先验更精细地嵌入进去,也许能跑出同样效果但小得多的模型。 第二篇 PerceptionDLM 关注的是多模态大模型在视觉理解任务中的效率问题。大家知道现在的多模态模型大多数是自回归生成,但像同时描述图片里多个区域这种任务,自回归就显得有点笨——得一个一个生成,并行度上不去。这篇工作提出了一个并行区域感知的框架,本质上是把扩散模型的非自回归特性用到了多模态理解上,一次性输出多个区域的描述。这其实和我们在科学计算里的需求很像:我们经常要同时求解多个点、多个时间步的PDE解,如果能利用并行解码的思路,也许能设计出更高效的算子网络。 第三篇 Multi-LCB 扩展了代码评估基准LiveCodeBench,从单一Python语言扩展到十二种编程语言。这个工作的动机很直接:现实工程中不可能只用Python,但大多数模型都是在Python上评测的,能不能泛化到其他语言很能说明模型的真实能力。他们保留了LCB的污染控制和时间窗口特性,把Python题目翻译成其他语言。这让我想到科学计算里的类似问题:我们训练PDE模型时用的是什么数据?是只有简单的几何还是涵盖了各种复杂场景?跨语言的泛化能力对于科学计算可能没那么直接,但它提醒我们一个更本质的问题:模型能力的边界到底是由什么决定的?是训练数据的多样性,还是架构本身的归纳偏置? 接下来是两篇机器人相关的工作。DragMesh-2 研究的是灵巧手操作铰接物体,比如开门、按开关这种任务。这里面有个物理上的难点:目标部件没法直接驱动,必须通过持续的手-把手接触来产生运动。之前的做法多是轨迹复现或开环执行,但这些方法没有建模接触力学的细节。他们提出了一个考虑接触动力学的策略,能在保持物理 plausibility 的前提下完成操作。这让我想到科学计算里的一个经典问题:如何保证数值模拟的物理一致性?不管是流体还是结构力学,约束条件和接触条件处理不好,结果再漂亮也站不住脚。机器人领域的这套方法,也许能给我们一些关于约束求解的启发。 第五篇 Playful Agentic Robot Learning 非常有意思,它让机器人先通过“玩”来积累技能,然后再执行下游任务。传统的做法是给一个任务,学一个技能,学完就用。但他们提出一个更主动的范式:机器人在没有具体任务的时候,自己生成探索性的任务,执行、反馈、诊断失败、重试,然后把成功的经验沉淀成可复用的技能库。这其实有点像我们训练基础模型时的预训练阶段:先在大规模数据上学通用能力,再在特定任务上微调。只是这里“预训练”变成了“玩”,而且是agentic的玩。这让我想到一个更大的图景:当我们在谈PDE Foundation Model的时候,是不是也可以让模型先在海量物理数据上自己“玩”出一些结构,然后再针对具体问题做提示学习? 今天的论文看下来,我最大的感受是:AI社区正在从“越大越好”的单一叙事中走出来,重新审视效率、泛化和自适应的可能性。不管是轻量级模型、并行解码、跨语言泛化、还是通过玩耍来学习技能,背后都是同一个问题——如何让智能系统更灵活、更高效、更少依赖暴力计算。这和我们AI4S的追求本质上是一致的:与其烧卡堆参数,不如在数据和模型结构里注入更多关于物理的先验和关于任务的思考。好了各位,今天的播报就到这里,祝一周科研顺利。

本期涉及论文