**2025年围绕O系列和De...

发布者：麦子

**2025年围绕O系列和DeepSeek-R1的叙事**

2025年围绕O系列和DeepSeek-R1的叙事，让人觉得这个旋钮只能朝一个方向拧。在推理阶段投入更多算力，就能得到更好的答案。数学论文也支持这一点。Snell等人证明，测试时算力的计算最优分配可以精心筛选参数规模的扩展。“等”更是把配方简化到几乎微不足道：一个性能远超其体量的32B模型，配合token来强制更多思考，以及一个性能远超其体量的样本。而在同一年，倒U型曲线却悄然浮现。多份推理扩展报告都记录了相同的形状：性能随着采样轨迹增多或推理链加长而提升，然后趋于平稳，接着开始下降。模型会把自己绕出正确答案，从更宽的集合中选出更差的轨迹，锁定一个错误前提，并据此自信地推理下去。 Mirhoseini在Archon系列工作中的框架，直接点出了瓶颈所在：覆盖很容易，选择才是难点。你可以低成本生成100个候选解，但在没有干净验证器的情况下挑出正确的那一个，才是新的卡点。没有验证器，更多的思考有时只是更多的噪声。 LeCun一整年都在从另一个角度强调这一点。他称测试时算力是一种昂贵荒谬的方式，用来缓解自回归token空间源头信息加微qun3800推理中更深层的问题。你不必全盘接受他的JEPA路线图，也能认真对待这个更小的观点：暴力推理有一条成本曲线和一条质量曲线，而超过某个特定于工作负载的阈值后，这两条曲线就不再指向同一个方向。对构建者来说，务实的做法是把推理算力花在那些你同时拥有真正验证器的地方：编程有编译器和测试，数学有答案检查器，结构化提取有模式约束，而开放式写作两者都没有。这个旋钮确实存在，天花板也同样真实。