Paper Morning 2026-06-23
2026-06-23
各位早上好,今天是周二,Paper Morning如约而至。
先说说第一篇,DataClaw0,关注的是多模态数据处理的问题。大家知道,现在很多领域都面临数据“熵”很高的情况,原始数据量大、结构混乱,传统的人工标注成本太高。这篇文章提出了一个“智能数据裁剪”的思路,让AI agent来主动分析和处理数据流,根据下游任务需求自动提取有价值的内容。这个思路让我想到科学计算中同样面临的数据预处理挑战——我们实验室里有大量模拟产生的高维时空数据,如何自动筛选出有物理意义的样本、过滤噪声、提取关键特征,其实是一个还没被很好解决的问题。DataClaw0展示的自动化pipeline,或许能为科学数据的智能化处理提供参考。
接下来看EnterpriseClawBench,这是一个企业场景下的agent基准测试。现在AI agent很火,但很多评测还是在玩具数据集上做的。这篇文章从真实的企业工作会话中构建了852个任务,覆盖了阅读文件、调用工具、生成业务文档等场景。有意思的是,他们发现即使是最强的配置,也只能达到0.663的准确率。这说明什么?说明从模型能力到真实任务的鸿沟还非常大。我们在AI4S中也经常遇到类似的问题——实验室里跑的demo效果不错,但一到真实的科学问题就捉襟见肘。这个benchmark的价值在于,它提醒我们不要过于乐观。
第三篇OpenRath解决的是一个很实际的问题:多智能体系统的运行时状态怎么管理。大家可能都有体会,当一个复杂系统里有多个agent协同工作,产生大量的对话历史、工具调用记录、中间状态,这些信息分散在不同地方,到后面想回溯、调试或者重放就变得非常困难。OpenRath提出了一个类似PyTorch编程模型的思路,把Session作为核心抽象,统一管理所有运行时信息。这让我想到科学计算中的工作流系统——当我们做大规模物理模拟时,同样需要管理参数配置、中间结果、检查点、并行通信状态等复杂状态。或许这种统一抽象的思路可以借鉴到科学计算的工作流管理中。
第四篇PlanBench-XL关注的是LLM agent在大型工具生态系统中的长程规划能力。他们构建了一个包含1655个工具的零售场景任务集,测试agent能否在有限的工具可见性下,自主检索相关工具、通过多次调用逐步推理出最终答案。结果发现,即使加上可选的阻塞机制来模拟真实世界的不可预测性,agent的表现也远不尽如人意。这篇论文让我思考一个问题:我们做科学计算的时候,是否也需要类似的工具检索和规划能力?比如给定一个物理问题,agent能否自动检索相关的求解器、库函数,甚至组合多个工具来完成一个复杂的计算任务?目前看来,这个能力还需要很大提升。
最后是一篇survey,World Action Models。世界动作模型是具身智能里的一个重要方向,它让模型不仅能理解世界,还能对未来进行预测并据此做出行动。这篇survey很好地梳理了.rendered futures、latent futures、video-generation-free action reasoning三条技术路线。关于这个方向和科学计算的关系,我觉得很有意思的一点是:物理模拟本质上就是一个“world model”——给定当前状态,预测未来演化。那么世界动作模型的进展,能否反过来启发我们构建更准确的物理预测模型?特别是现在diffusion model在生成式建模上进展很快,把它和物理约束结合,会产生什么样的可能性?这是值得关注的交叉点。
好,总结一下今天的观察。这五篇论文其实都指向同一个趋势:AI agent正在从“能做什么”向“怎么做”深入。之前我们关心的是模型本身的推理能力、上下文长度这些单点指标,但现在大家越来越关注完整的系统问题——怎么评估真实场景下的表现、怎么管理复杂系统的状态、怎么做长程的工具规划和执行。这些基础设施建设层面的工作,短期内可能不如刷出一个新SOTA吸引眼球,但它们才是真正让agent从demo走向落地的关键。科学计算领域其实也面临类似的阶段:我们不缺好的模型和算法,但缺一整套让这些模型真正用起来的工具链和生态。今天的论文或许能给AI4S的从业者一些启示——不要只盯着模型本身,系统层面的工作同样重要。
好了,今天的播报就到这里,我们明天见。