Paper Morning 2026-05-31

各位早上好，Paper Morning又和大家见面了。今天想先从一个更大的话题聊起。我们一直在关注AI for Science里那些直接和物理方程、分子模拟相关的工作，但最近我注意到一个有趣的汇合点：视频生成模型正在试图理解因果律，而这恰恰是科学计算最底层的东西。今天的几篇论文虽然来自不同的方向，但都在叩问同一个问题：模型到底是在拟合统计规律，还是真的理解了世界的因果结构？先看第一篇minWM，它提出了一个构建实时交互式视频世界模型的全栈开源框架。大家知道，这两年视频扩散模型进展很快，但把它们变成可控、低延迟、可交互的世界模型，难度不在生成质量本身，而在于需要把双向的生成模型改造成自回归的推理模型，同时还要支持相机控制。minWM的思路很务实，它不从头训练，而是对现有的T2V/TI2V模型做可控微调，再加上少步蒸馏和流式推理流水线。我感兴趣的是它展示的可能性：当我们能够在几十毫秒内生成交互式视频时，这种能力能不能迁移到科学问题的可视化上？比如让我们对复杂系统的演化进行实时交互探索，这其实和我们在意的事有微妙的联系。第二篇YoCausal很有意思，它从因果推理的角度重新审视视频生成模型。作者问了一个根本性的问题：现在的视频扩散模型到底是真的理解了因果，还是仅仅在拟合时间上的统计规律？他们提出了一个很聪明的做法：不依赖人工构造的合成数据，而是把真实世界的视频做时间翻转，用零成本的方式生成反事实样本。基于这个思路设计了RSI和CCI两个指标，分别衡量模型对时间箭头的感知和对因果关系的认知。这个工作让我想到，我们在做物理仿真的时候，其实也在问类似的问题：一个模型预测的轨迹到底是因为它捕捉到了真正的物理规律，还是仅仅记住了训练数据中的时空相关性？如果视频生成模型能够展现出真正的因果理解，那它或许能成为科学模拟的有力工具。第三篇是CollectionLoRA，它解决的是一个很实际的问题：如何把几十个不同的视觉特效LoRA模型压缩到一个里面去，同时还能保持少步生成的能力。做法是多教师同策略蒸馏，本质上是一次性把多个专家模型的知识融合到一个轻量级 adapter里。这篇的技术含量不低，但我更想把它放在一个更大的图景里看：我们现在训练科学大模型的时候，是不是也在面临类似的挑战？不同领域的物理知识、不同尺度的模拟能力，如何能用一种统一但高效的方式整合到一个模型里？LoRA作为轻量级微调范式的成功，或许能给AI4S的模型组合提供一些启发。第四篇OmniRetrieval提出了一个跨异构知识源的统一检索框架。它不把不同结构的数据强行映射到同一个空间，而是让检索层去适配每个知识源自己的接口和语义。这个思路其实挺深刻的，我们做科学数据检索的时候经常遇到类似的问题：文本文献、分子结构、知识图谱、实验数据，它们的表示方式完全不同，传统的向量检索会丢失太多结构信息。OmniRetrieval的设计理念提醒我们，在AI4S的场景里，也许不必执着于把所有东西都embedding到一个空间，有时候保持异构性反而能保留更多表达能力。最后一篇AgentDoG 1.5是关于AI智能体安全对齐的，提出了一个轻量级的框架，只需要大约一千个样本就能训练出有效的安全模型。这是一个很务实的工作，但我更想把它和今天的其他几篇联系在一起看：当我们的模型开始能够生成世界模型、理解因果、甚至能够进行复杂的多步推理和交互时，安全问题就变得愈发重要。视频生成模型如果真的理解了物理世界的因果规律，理论上它就能模拟各种物理过程，这种能力本身就是一把双刃剑。今天的这几篇论文，表面上看起来比较杂，有视频生成、有检索系统、有Agent安全，但它们其实都指向同一个趋势：AI模型正在从“拟合分布”走向“理解结构”。无论是视频模型对因果的感知，还是异构知识源的语义整合，都在试图让模型不只是统计意义上的相似，而是真正掌握事物之间的结构关系。这种从“相关性”到“因果性”、从“同质化”到“结构化”的转变，可能正是我们整个领域正在经历的一次范式变迁。好，以上就是今天的内容，我们下期再见。

Paper Morning 2026-05-31

本期涉及论文