Paper Morning 2026-03-10

2026-03-10

各位早上好,又到了Paper Morning的时间。 今天想从一个我们领域的基础问题聊起:怎么处理“长”的问题。不管是长视频、长文本,还是大规模数据的长期演化,本质上都在问同一件事——如何在有限的计算资源下,保持信息和推理的一致性。今天的几篇论文,正好从不同角度触及了这个挑战。 先看第一篇,LoGeR,讲的是如何把几何重建模型扩展到分钟级的长视频。我们知道,dense 3D重建在短窗口上已经做得不错了,但一到长序列,attention的二次复杂度就成了瓶颈。LoGeR的思路很有意思,它引入了一个混合内存模块,其中一个是Test-Time Training的参数量内存,用来锚定全局坐标框架,防止尺度漂移;另一个是非参的内存来处理chunk之间的连续性。这其实和我们之前讨论过的operator learning里的长期记忆机制有异曲同工之妙——都是在用learning-based的方式来解决纯统计方法搞不定的跨窗口一致性问题。作者声称不需要后处理优化就能达到分钟级的高保真重建,这一点如果属实,会对机器人视觉或者AR应用有不小的推动。 然后顺着一路往下,Holi-Spatial做的事情很有意思,它直接把原始视频流自动标注成大规模的空间智能数据。我们一直在说AI4S缺数据、缺benchmark,这篇论文的思路很直接但很有效——不依赖人工标注,而是用一套自动化pipeline从web视频里直接抽取3D空间信息。它支持多层次的空间监督信号,这让我想到去年NeurIPS上一些工作用vision-language model做数据合成的方法。看来空间智能的数据瓶颈,可能真的要靠自动化而非人力来突破了。 聊完空间智能,切换到大语言模型的内部世界。Lost in Stories这篇工作很有意思,它问了一个我们平时可能不太注意但实际上非常关键的问题:当LLM写长篇故事的时候,它会不会忘记自己之前写了什么?作者构建了一个叫ConStory-Bench的benchmark,专门评测长文本生成中的一致性问题,发现模型居然会在几万字的篇幅里出现自相矛盾的情况。这其实暴露了Transformer架构的一个根本限制——它的上下文窗口再长,也很难真正做到对全局信息的统一表征。这让我想起之前聊过的Neural Operator里的memory mechanism,也许未来真的需要某种外部记忆增强才能根治这个问题。 接下来的Believe Your Model则从另一个角度回应了怎么用好模型。它关注的是大推理模型在test-time scaling时的置信度校准问题。简单说,这些模型生成多个候选答案后,怎么知道哪个更靠谱?传统做法是看置信度分数,但这篇论文发现置信度的分布本身就包含信息——它用高斯混合模型把混合置信度分解成正负两部分,然后把这个分布先验融入投票过程。这思路挺巧妙的,相当于把模型对自己的“感觉”再做一次后验校准。Test-time compute现在已经是提升模型能力的重要范式,这篇工作算是给这个方向加了颗小钉子。 最后一篇,How Far Can Unsupervised RLVR Scale LLM Training,是关于无监督强化学习在LLM训练上的天花板在哪里。作者把现有的方法分成了内在信号和外在信号两类,然后给出了一个统一理论框架,说明所有内在方法本质上都是在把模型的初始分布“尖锐化”——也就是说让模型更自信。但如果模型初始的自信方向错了,这种sharpening反而会适得其反。这个洞察很深刻,它提醒我们,在没有真值标签的情况下盲目扩展RLVR,可能训练到最后模型只是更固执地错了,而不是更聪明地对了。 好,让我们退后一步看看今天的这五篇论文在讲什么。它们其实在回答一个共同的问题:如何在系统规模不断变大的过程中,保持某些关键属性不退化——是几何重建的尺度一致性,是长文本的事实一致性,是推理答案的置信度一致性,也是无监督训练中信号的有效性。这种对“一致性”的执着追求,可能正是当下AI4S和基础模型研究正在形成的新共识。 好了,今天的播报就到这里,我们明天早上继续聊。

本期涉及论文