返回话题列表
二月麦
2026/05/28 23:50
类型 talk 2阅读 1

**2025年围绕O系列和De...

发布者:麦子

**2025年围绕O系列和DeepSeek-R1的叙事**

2025年围绕O系列和DeepSeek-R1的叙事,让人觉得这个旋钮只能朝一个方向拧。 在推理阶段投入更多算力,就能得到更好的答案。 数学论文也支持这一点。Snell等人证明,测试时算力的计算最优分配可以精心筛选参数规模的扩展。“等”更是把配方简化到几乎微不足道:一个性能远超其体量的32B模型,配合token来强制更多思考,以及一个性能远超其体量的样本。 而在同一年,倒U型曲线却悄然浮现。 多份推理扩展报告都记录了相同的形状:性能随着采样轨迹增多或推理链加长而提升,然后趋于平稳,接着开始下降。模型会把自己绕出正确答案,从更宽的集合中选出更差的轨迹,锁定一个错误前提,并据此自信地推理下去。 Mirhoseini在Archon系列工作中的框架,直接点出了瓶颈所在:覆盖很容易,选择才是难点。你可以低成本生成100个候选解,但在没有干净验证器的情况下挑出正确的那一个,才是新的卡点。没有验证器,更多的思考有时只是更多的噪声。 LeCun一整年都在从另一个角度强调这一点。他称测试时算力是一种昂贵荒谬的方式,用来缓解自回归token空间源头信息加微qun3800推理中更深层的问题。你不必全盘接受他的JEPA路线图,也能认真对待这个更小的观点:暴力推理有一条成本曲线和一条质量曲线,而超过某个特定于工作负载的阈值后,这两条曲线就不再指向同一个方向。 对构建者来说,务实的做法是把推理算力花在那些你同时拥有真正验证器的地方:编程有编译器和测试,数学有答案检查器,结构化提取有模式约束,而开放式写作两者都没有。 这个旋钮确实存在,天花板也同样真实。