Paper Morning 2026-05-30

各位早上好，今天是周末，Paper Morning准时开播。最近AI领域有几个很有意思的动向，我想跟大家聊聊。首先是视频生成和世界模型这个方向，大家知道过去一年视频扩散模型进展很快，但现在大家开始关心一个问题：这些模型真的理解物理世界的因果关系吗，还是只是学到了一些统计上的时间相关性？这其实是个很根本的问题，因为我们做科学计算、做物理模拟，最终要的是能够因果地推演未来，而不是简单地播放一段看起来合理的视频。 YoCausal这篇工作就试图回答这个问题。作者提出了一个很有意思的思路：用时间反转的真实视频作为自然反事实样本，然后设计了两个指标，一个叫RSI，衡量模型能否感知时间的方向，另一个叫CCI，用VLM来分层判断因果认知。这个工作的巧妙之处在于，它不需要人工构造合成数据，而是利用現成的真实视频，成本很低。我觉得这个思路对于我们做科学模拟的人很有启发——我们在评估一个物理模型的时候，其实也应该问同样的问题：模型是在真正理解物理规律，还是只是在拟合数据中的统计关联？顺着这个思路，另一篇minWM的工作就更偏向工程实现了。它试图把双向的视频扩散模型变成可交互的、低延迟的世界模型，支持相机控制和多步自回归生成。这里面涉及数据构建、可控微调、蒸馏等一系列 Pipeline，最终能够实现实时的交互式视频生成。如果说道理上我们在问“视频模型能不能理解因果”，那minWM就是在回答“如果能的话，怎么让它跑得足够快来交互”。对于AI4S来说，这个意义在于，当我们想要把世界模型嵌入到更大的系统里——比如做科学实验的模拟器、做机器人的环境模型——实时性是硬需求。再说回方法论，今天还有一篇 CollectionLoRA 挺有意思。它试图把50种不同的视觉效果，以及少步生成的能力，蒸馏到单个 LoRA 里。这本质上解决的是效率问题：效果太多，一个一个加载太慢，级联起来又容易串扰。我觉得这个思路其实反映了整个AI领域的一个大趋势——从追求单个模型的极致性能，转向追求在有限资源下的灵活部署。Foundation Model 出来了，大家都想往上堆能力，但真正落地的时候，推理成本、延迟、内存这些都是硬约束。这和我们做科学计算的人面临的挑战是一样的：再好的模型，如果不能高效地跑在实际的物理问题上，就只能是论文里的数字。最后想提一下 AgentDoG 1.5。这篇工作关注的是AI Agent的安全性，提出了一个轻量级的对齐框架。他们更新了安全分类体系，来适应像OpenClaw这种跨环境执行的新型风险，并且用大约一千个样本就能训练出表现不错的模型。这背后其实反映的是一个更宏观的趋势：随着Agent能力越来越强，安全问题不再是事后补救，而是要从系统设计的一开始就考虑进去。这和我们在构建AI4S平台时的思路是一致的——当你把AI嵌入到科学发现的流程里时，可靠性、鲁棒性、这些都是底线。好了，今天的播报就到这里。总体来看，这几篇论文其实都指向同一个方向：AI系统在从“能生成”走向“能交互”、从“能拟合”走向“能推理”、从“能做事”走向“能安全地做事”。这个转变对于我们做科学计算的人来说，意味着我们可以期待更强的交互式模拟、更可靠的物理推理，以及更安全的自动化实验设计。好，祝大家周末愉快，继续享受阅读的乐趣。

Paper Morning 2026-05-30

本期涉及论文