Paper Morning 2026-03-08
2026-03-08
各位早上好,周日的Paper Morning如约而至。
先看第一篇,Helios,一个140亿参数的视频生成模型,能在单张H100 GPU上跑出19.5FPS,同时支持分钟级的长视频生成。这件事为什么有意思呢?大家知道,视频生成模型在过去一年多里经历了爆发式增长,但主流路线几乎都依赖自回归或diffusion的级联结构,长视频 drift问题(就是生成到后面质量崩塌)几乎是行业共识的难题。Helios的突破点在于,它不需要常见的anti-drifting技巧,比如self-forcing或者keyframe采样,而是通过一个统一的输入表示,让模型原生就能处理长序列。这让我想到我们在PDE求解里经常讨论的“长期一致性”问题——如何在保持局部精度的同时维护全局稳定性。视频生成和长时间 PDE 积分在这一点上其实是相通的,只是问题域不同。
第二篇 SkillNet 提出了一个开放的基础设施,用来系统性地创建、评估和组织AI技能。这两年AI agent火起来之后,大家都意识到一个问题:智能体每次遇到新任务都是从零学起,缺乏像人类一样的技能积累和迁移机制。SkillNet的思路是建立一个统一本体论,把技能抽象成可复用的单元,并且从安全性、完整性、可执行性、可维护性和成本意识五个维度来评估。这让我想到 reinforcement learning 里一直想解决的 multi-task learning 问题——如何让不同任务之间共享知识但又不互相干扰。SkillNet提供了一个基础设施层面的解法,值得关注它后续能否真正形成一个可用的技能市场。
第三篇 MOOSE-Star 试图解决一个很根本的问题:如何用大语言模型直接建模科学发现的推理过程 P(假设|背景知识)。作者指出直接训练这个概率模型在数学上是 intractable 的,因为要从庞大的知识库里检索和组合灵感,涉及组合复杂度 O(N^k)。他们的方案是把问题分解,训练子任务,然后引入动机引导的分层推理。这个工作的意义不在于它在某个具体科学任务上取得了多高的指标,而在于它尝试把 LLM 的“猜测”能力变得更可控、更可解释。这和我们做 neural operator 时追求的可解释性其实是一个思路——不是只给一个黑箱输出,而是要让模型能说出“我为什么这么预测”。
第四篇论文 T2S-Bench 和 Structure-of-Thought 很有意思。研究者发现人在读复杂文本的时候会做标记、推关系、建结构,于是他们问:语言模型能不能从文本结构化中受益?他们提出的 SoT 方法显式引导模型构建中间文本结构,在八个任务上都取得了一致的提升。这让我想起物理里经常说的“构型空间”概念——把问题从原始表示映射到一个更有结构的表示,往往能打开新的解法。T2S-Bench 覆盖了六个科学领域的数据,这说明在科学文本处理上,结构化可能尤其重要,因为科学写作本身就高度结构化——假设、实验、结论、引用,关系明确。
第五篇 Heterogeneous Agent Collaborative Reinforcement Learning 是一个强化学习新范式。传统 RL 里智能体要么自己学自己的,要么靠一个老师来教学生。HACRL 允许异构智能体在训练时共享已经验证过的 rollout 数据,但推理时各跑各的。这就像一个研究团队,大家各自做实验,成功的经验分享出来,失败的教训也分享出来,但每个人还是独立做自己的课题。这种“双向互学习”模式在科学发现中其实很常见——不同实验室、不同课题组,通过论文和会议交流最新发现,但各自的具体研究方向可以完全不同。
今天的五篇论文,表面上涉及视频生成、技能基础设施、科学推理、语言模型的结构化能力、强化学习,乍看之下和我们关注的 neural operator、PDE foundation model 距离不近。但如果往深里想,它们都在回答一个共同的问题:如何在复杂系统中建立长期一致性、如何让知识跨任务跨模态复用、如何把推理过程变得可控可解释。这些正是 AI for Science 未来的核心挑战——不只在 PDE 上跑出更好的精度,而是在整个科学发现的链条上,建立起更鲁棒、更可解释、更能持续学习的模型体系。好,祝大家周末愉快,科研顺利。