Paper Morning 2026-05-05

2026-05-05

各位早上好,Paper Morning开播了。 今天想先从一篇让我眼前一亮的数据工作聊起。大家知道这两年foundation model火遍各行各业,但我们做科学计算的都知道,最大的瓶颈往往不是模型本身,而是数据。OceanPile这个工作很有意思,它瞄准的是海洋科学这个被严重低估的领域。你看全球气候变化、海洋生态这些大问题,我们掌握的观测数据其实极其稀疏,而且分散在各种异构源里,质量参差不齐。OceanPile做的事情,就是给海洋领域做一个大规模的多模态数据对齐,用他们的话说,这是给海洋科学准备的基础设施。我觉得这个工作的意义不只是提供数据本身,它提醒我们一个很重要的事情:foundation model要真正渗透到某个科学领域,第一步永远是先把该领域的数据基础设施建好,不然模型再强也只是巧妇难为无米之炊。 说完了数据,咱们来看方法层面的进展。UniVidX这个工作把视频扩散模型用出了新花样,它不再局限于生成视频,而是把扩散模型的先验知识迁移到各种多模态任务里。核心思路很有意思,叫做随机条件掩码,简单说就是在训练时随机决定哪些模态是干净的条件,哪些是需要去噪的目标。这种设计让模型学会了在不同模态之间做推理,而不仅仅是做固定的映射。放到咱们AI4S的语境里,这其实暗示了一个方向:能不能用视频扩散模型来补全物理仿真的结果?比如已知部分观测数据,让模型去推理完整的流场演化?这篇工作虽然不是直接做科学计算,但它展示的跨模态推理能力,对我们做多物理场耦合仿真的人是有启发的。 接下来聊聊机器人。MolmoAct2这个名字可能有些朋友还不太熟,但它背后的思路值得琢磨。它是一个完全开源的视觉-语言-动作模型,专门为实际部署设计。大家知道这两年VLA模型很火,但大多数要么是闭源的,要么对硬件要求极高,很难真正落地。MolmoAct2的贡献在于,它用一种“先专精后排练”的策略,在相对低成本的数据上训出了一个可用的模型。对我们做物理模拟的人来说,这里最有趣的点可能不在机器人本身,而在于它展示的一种思路:用相对少的领域特定数据,加上合适的训练策略,也能让大模型具备执行物理任务的能力。这跟咱们在PDE求解里用少量高保真仿真数据微调foundation model的做法,其实有异曲同工之妙。 然后是两篇偏基础方法的工作。From Context to Skills探讨的是语言模型能不能从上下文里自己学到技能,并且把这个技能提取出来用于后续推理。这个问题看起来像是NLP的方法论,但它指向了一个很根本的问题:当模型的参数量不够大、无法把所有知识都记在参数里的时候,怎么让它更好地利用上下文信息?放到科学计算里,这个问题太现实了——我们不可能把所有物理方程、数值方法都塞进模型参数,那么如何让模型在推理时动态调用合适的“技能”,就是一个关键问题。Ctx2Skill这个框架尝试自动化地做到这一点,虽然目前只是概念验证,但它为未来构建更智能的科学助手指了一条路。 最后一篇Web2BigTable,它解决的是一个很实际的问题:怎么从互联网上大规模、结构化地抽取信息?用的是多智能体的架构,上面一层做任务分解,下面一层并行执行,最后通过闭环的验证和反思来改进结果。这个工作在AI agent火热的当下可能不算最抢眼的,但我对它有特别的期待——各位想想看,咱们做AI4S的人,每天要读大量论文、查各种数据库,如果能让这样的系统帮我们自动从海量的科学文献里抽取结构化的知识,那会省多少时间?它不只是一个搜索工具,更像是给研究者配了一个智能研究助理。 好了,今天聊了五篇论文,涉及数据、模型、机器人、方法论和工具四个层面。如果要我提炼一个整体观察的话,我会说:今天这些工作虽然看起来分散,但其实都在回答同一个问题——怎么让强大的AI能力真正落地到具体场景里?不管是建海洋数据基础设施,还是让扩散模型学会跨模态推理,或者让机器人能够低成本部署,乃至让模型能从上下文里自己学技能,本质上都是在解决“最后一公里”的问题。对我们AI4S社区来说,这其实是个好消息,说明整个AI领域正在从“炫技”走向“实用”,而这正是我们科学计算工作者最需要的——不是paper上的SOTA,而是真正能帮我们理解物理世界的有力工具。

本期涉及论文