Paper Morning 2026-05-31

2026-05-31

各位早上好,Paper Morning又和大家见面了。 今天想先从一个更大的话题聊起。我们一直在关注AI for Science里那些直接和物理方程、分子模拟相关的工作,但最近我注意到一个有趣的汇合点:视频生成模型正在试图理解因果律,而这恰恰是科学计算最底层的东西。今天的几篇论文虽然来自不同的方向,但都在叩问同一个问题:模型到底是在拟合统计规律,还是真的理解了世界的因果结构? 先看第一篇minWM,它提出了一个构建实时交互式视频世界模型的全栈开源框架。大家知道,这两年视频扩散模型进展很快,但把它们变成可控、低延迟、可交互的世界模型,难度不在生成质量本身,而在于需要把双向的生成模型改造成自回归的推理模型,同时还要支持相机控制。minWM的思路很务实,它不从头训练,而是对现有的T2V/TI2V模型做可控微调,再加上少步蒸馏和流式推理流水线。我感兴趣的是它展示的可能性:当我们能够在几十毫秒内生成交互式视频时,这种能力能不能迁移到科学问题的可视化上?比如让我们对复杂系统的演化进行实时交互探索,这其实和我们在意的事有微妙的联系。 第二篇YoCausal很有意思,它从因果推理的角度重新审视视频生成模型。作者问了一个根本性的问题:现在的视频扩散模型到底是真的理解了因果,还是仅仅在拟合时间上的统计规律?他们提出了一个很聪明的做法:不依赖人工构造的合成数据,而是把真实世界的视频做时间翻转,用零成本的方式生成反事实样本。基于这个思路设计了RSI和CCI两个指标,分别衡量模型对时间箭头的感知和对因果关系的认知。这个工作让我想到,我们在做物理仿真的时候,其实也在问类似的问题:一个模型预测的轨迹到底是因为它捕捉到了真正的物理规律,还是仅仅记住了训练数据中的时空相关性?如果视频生成模型能够展现出真正的因果理解,那它或许能成为科学模拟的有力工具。 第三篇是CollectionLoRA,它解决的是一个很实际的问题:如何把几十个不同的视觉特效LoRA模型压缩到一个里面去,同时还能保持少步生成的能力。做法是多教师同策略蒸馏,本质上是一次性把多个专家模型的知识融合到一个轻量级 adapter里。这篇的技术含量不低,但我更想把它放在一个更大的图景里看:我们现在训练科学大模型的时候,是不是也在面临类似的挑战?不同领域的物理知识、不同尺度的模拟能力,如何能用一种统一但高效的方式整合到一个模型里?LoRA作为轻量级微调范式的成功,或许能给AI4S的模型组合提供一些启发。 第四篇OmniRetrieval提出了一个跨异构知识源的统一检索框架。它不把不同结构的数据强行映射到同一个空间,而是让检索层去适配每个知识源自己的接口和语义。这个思路其实挺深刻的,我们做科学数据检索的时候经常遇到类似的问题:文本文献、分子结构、知识图谱、实验数据,它们的表示方式完全不同,传统的向量检索会丢失太多结构信息。OmniRetrieval的设计理念提醒我们,在AI4S的场景里,也许不必执着于把所有东西都embedding到一个空间,有时候保持异构性反而能保留更多表达能力。 最后一篇AgentDoG 1.5是关于AI智能体安全对齐的,提出了一个轻量级的框架,只需要大约一千个样本就能训练出有效的安全模型。这是一个很务实的工作,但我更想把它和今天的其他几篇联系在一起看:当我们的模型开始能够生成世界模型、理解因果、甚至能够进行复杂的多步推理和交互时,安全问题就变得愈发重要。视频生成模型如果真的理解了物理世界的因果规律,理论上它就能模拟各种物理过程,这种能力本身就是一把双刃剑。 今天的这几篇论文,表面上看起来比较杂,有视频生成、有检索系统、有Agent安全,但它们其实都指向同一个趋势:AI模型正在从“拟合分布”走向“理解结构”。无论是视频模型对因果的感知,还是异构知识源的语义整合,都在试图让模型不只是统计意义上的相似,而是真正掌握事物之间的结构关系。这种从“相关性”到“因果性”、从“同质化”到“结构化”的转变,可能正是我们整个领域正在经历的一次范式变迁。好,以上就是今天的内容,我们下期再见。

本期涉及论文