Paper Morning 2026-03-10

各位早上好，又到了Paper Morning的时间。今天想从一个我们领域的基础问题聊起：怎么处理“长”的问题。不管是长视频、长文本，还是大规模数据的长期演化，本质上都在问同一件事——如何在有限的计算资源下，保持信息和推理的一致性。今天的几篇论文，正好从不同角度触及了这个挑战。先看第一篇，LoGeR，讲的是如何把几何重建模型扩展到分钟级的长视频。我们知道，dense 3D重建在短窗口上已经做得不错了，但一到长序列，attention的二次复杂度就成了瓶颈。LoGeR的思路很有意思，它引入了一个混合内存模块，其中一个是Test-Time Training的参数量内存，用来锚定全局坐标框架，防止尺度漂移；另一个是非参的内存来处理chunk之间的连续性。这其实和我们之前讨论过的operator learning里的长期记忆机制有异曲同工之妙——都是在用learning-based的方式来解决纯统计方法搞不定的跨窗口一致性问题。作者声称不需要后处理优化就能达到分钟级的高保真重建，这一点如果属实，会对机器人视觉或者AR应用有不小的推动。然后顺着一路往下，Holi-Spatial做的事情很有意思，它直接把原始视频流自动标注成大规模的空间智能数据。我们一直在说AI4S缺数据、缺benchmark，这篇论文的思路很直接但很有效——不依赖人工标注，而是用一套自动化pipeline从web视频里直接抽取3D空间信息。它支持多层次的空间监督信号，这让我想到去年NeurIPS上一些工作用vision-language model做数据合成的方法。看来空间智能的数据瓶颈，可能真的要靠自动化而非人力来突破了。聊完空间智能，切换到大语言模型的内部世界。Lost in Stories这篇工作很有意思，它问了一个我们平时可能不太注意但实际上非常关键的问题：当LLM写长篇故事的时候，它会不会忘记自己之前写了什么？作者构建了一个叫ConStory-Bench的benchmark，专门评测长文本生成中的一致性问题，发现模型居然会在几万字的篇幅里出现自相矛盾的情况。这其实暴露了Transformer架构的一个根本限制——它的上下文窗口再长，也很难真正做到对全局信息的统一表征。这让我想起之前聊过的Neural Operator里的memory mechanism，也许未来真的需要某种外部记忆增强才能根治这个问题。接下来的Believe Your Model则从另一个角度回应了怎么用好模型。它关注的是大推理模型在test-time scaling时的置信度校准问题。简单说，这些模型生成多个候选答案后，怎么知道哪个更靠谱？传统做法是看置信度分数，但这篇论文发现置信度的分布本身就包含信息——它用高斯混合模型把混合置信度分解成正负两部分，然后把这个分布先验融入投票过程。这思路挺巧妙的，相当于把模型对自己的“感觉”再做一次后验校准。Test-time compute现在已经是提升模型能力的重要范式，这篇工作算是给这个方向加了颗小钉子。最后一篇，How Far Can Unsupervised RLVR Scale LLM Training，是关于无监督强化学习在LLM训练上的天花板在哪里。作者把现有的方法分成了内在信号和外在信号两类，然后给出了一个统一理论框架，说明所有内在方法本质上都是在把模型的初始分布“尖锐化”——也就是说让模型更自信。但如果模型初始的自信方向错了，这种sharpening反而会适得其反。这个洞察很深刻，它提醒我们，在没有真值标签的情况下盲目扩展RLVR，可能训练到最后模型只是更固执地错了，而不是更聪明地对了。好，让我们退后一步看看今天的这五篇论文在讲什么。它们其实在回答一个共同的问题：如何在系统规模不断变大的过程中，保持某些关键属性不退化——是几何重建的尺度一致性，是长文本的事实一致性，是推理答案的置信度一致性，也是无监督训练中信号的有效性。这种对“一致性”的执着追求，可能正是当下AI4S和基础模型研究正在形成的新共识。好了，今天的播报就到这里，我们明天早上继续聊。

Paper Morning 2026-03-10

本期涉及论文