Paper Morning 2026-05-30
2026-05-30
各位早上好,今天是周末,Paper Morning准时开播。
最近AI领域有几个很有意思的动向,我想跟大家聊聊。首先是视频生成和世界模型这个方向,大家知道过去一年视频扩散模型进展很快,但现在大家开始关心一个问题:这些模型真的理解物理世界的因果关系吗,还是只是学到了一些统计上的时间相关性?这其实是个很根本的问题,因为我们做科学计算、做物理模拟,最终要的是能够因果地推演未来,而不是简单地播放一段看起来合理的视频。
YoCausal这篇工作就试图回答这个问题。作者提出了一个很有意思的思路:用时间反转的真实视频作为自然反事实样本,然后设计了两个指标,一个叫RSI,衡量模型能否感知时间的方向,另一个叫CCI,用VLM来分层判断因果认知。这个工作的巧妙之处在于,它不需要人工构造合成数据,而是利用現成的真实视频,成本很低。我觉得这个思路对于我们做科学模拟的人很有启发——我们在评估一个物理模型的时候,其实也应该问同样的问题:模型是在真正理解物理规律,还是只是在拟合数据中的统计关联?
顺着这个思路,另一篇minWM的工作就更偏向工程实现了。它试图把双向的视频扩散模型变成可交互的、低延迟的世界模型,支持相机控制和多步自回归生成。这里面涉及数据构建、可控微调、蒸馏等一系列 Pipeline,最终能够实现实时的交互式视频生成。如果说道理上我们在问“视频模型能不能理解因果”,那minWM就是在回答“如果能的话,怎么让它跑得足够快来交互”。对于AI4S来说,这个意义在于,当我们想要把世界模型嵌入到更大的系统里——比如做科学实验的模拟器、做机器人的环境模型——实时性是硬需求。
再说回方法论,今天还有一篇 CollectionLoRA 挺有意思。它试图把50种不同的视觉效果,以及少步生成的能力,蒸馏到单个 LoRA 里。这本质上解决的是效率问题:效果太多,一个一个加载太慢,级联起来又容易串扰。我觉得这个思路其实反映了整个AI领域的一个大趋势——从追求单个模型的极致性能,转向追求在有限资源下的灵活部署。Foundation Model 出来了,大家都想往上堆能力,但真正落地的时候,推理成本、延迟、内存这些都是硬约束。这和我们做科学计算的人面临的挑战是一样的:再好的模型,如果不能高效地跑在实际的物理问题上,就只能是论文里的数字。
最后想提一下 AgentDoG 1.5。这篇工作关注的是AI Agent的安全性,提出了一个轻量级的对齐框架。他们更新了安全分类体系,来适应像OpenClaw这种跨环境执行的新型风险,并且用大约一千个样本就能训练出表现不错的模型。这背后其实反映的是一个更宏观的趋势:随着Agent能力越来越强,安全问题不再是事后补救,而是要从系统设计的一开始就考虑进去。这和我们在构建AI4S平台时的思路是一致的——当你把AI嵌入到科学发现的流程里时,可靠性、鲁棒性、这些都是底线。
好了,今天的播报就到这里。总体来看,这几篇论文其实都指向同一个方向:AI系统在从“能生成”走向“能交互”、从“能拟合”走向“能推理”、从“能做事”走向“能安全地做事”。这个转变对于我们做科学计算的人来说,意味着我们可以期待更强的交互式模拟、更可靠的物理推理,以及更安全的自动化实验设计。好,祝大家周末愉快,继续享受阅读的乐趣。