**【智谱GLM-5.1高速版...

发布者：麦子

**【智谱GLM-5.1高速版】**

【智谱GLM-5.1高速版】400tokens/s刷新全球API速度上限，旗舰能力与低延迟首次兼得事件：5月22日，智谱上线GLM-5.1高速版API"GLM-5.1-highspeed"，模型输出速度达400tokens/s，刷新当前全球大模型厂商API的速度上限，系智谱GLM团队与TileRT团队联合打造，现已面向MaaS平台部分企业客户开放。速度背后的工程：TileRT推理引擎当前8×H200NVL服务器聚合内存带宽接近38TB/s，GLM-5.1单次decode激活参数量约42GB，理论上限近1000token/s。但传统框架下实测往往只有几十token/s——差距不在算力、而在调度。智谱此前并非国内模型速度的领先者，此次400tokens/s直接越过Gemini3.5Flash的289token/s，站上全球第一。智谱的路径是与专业推理引擎TileRT深度绑定，而非依赖通用框架。这一模式对标的是Google在TPU侧的垂直整合思路——模型与底层基础设施协同优化，壁垒不在算法而在系统协同。过去一年国内大模型Coding能力快速提升，Coding恰恰是AI应用中对速度最敏感的场景之一。一个CodingAgent任务往往需要数十轮模型调用，单轮响应慢上几秒，整体耗时就可能拉长十几分钟。同时，旗舰级能力与极致低延迟两者难以兼得。GLM-5.1高速版系国产大模型中首次将旗舰级能力与极致低延迟同时带入生产环境的模型。竞争格局影响： 25年底至26年初，主要模型厂商均开始转向Harness思路的技术路径，一致性加强，这意味着后续在模型厂商之间的竞争中，系统化的工程能力将成为稳住身位的重要因素，也是独立厂商相对于大厂的一个先发优势。本次智谱旗舰模型+低延迟的性能组合，亦是公司工程能力的又一体现，有望进一步巩固智谱国产SOTA模型的地位。