谷歌第八代TPU解读 ①谷歌...
发布者:乐晴
①谷歌云周三举行2026 Next大会,发布“代理式企业”技术栈,涵盖第八代TPU、智能体软件平台等一系列前沿创新。
②谷歌发布了两款AI芯片,TPU 8t 和TPU 8i,分别用于AI训练和推理任务,剑指英伟达。
③谷歌CEO皮查伊表示,谷歌已经进入了所谓的“智能体工作流程”。
谷歌把AI芯片一刀切成两半,一块专门训练大模型,一块专门跑推理,因为这两件事需要的硬件完全不一样了。
训练芯片(8t):追求极致规模
一口气连13.4万颗芯片一起训练,最多能扩到100万颗
首次支持4-bit计算(FP4),同样算力下速度翻倍
存储读取速度比上一代快10倍,芯片不用等数据
推理芯片(8i):追求极致低延迟
芯片上塞了3倍大的缓存,AI对话时不用反复去远处取数据,响应更快
新增一个"同步加速器"(CAE),让多颗芯片协同工作时等待时间缩短80%
最关键的创新:互联拓扑从"邻居串门"改成"全员直连"——MoE模型每个token可能要找任何一个专家,不能再一跳一跳传,改成最多7跳到达任意芯片,比之前快一倍,
也就是,最核心的信息不是算力,是架构分叉——8t用Torus追训练规模,8i用Boardfly+CAE+大SRAM追推理延迟。MoE改变了通信模式,推理集群用OCS全互联。
一个隐藏的关键细节,推理芯片的全员互联用到了光路交换机(OCS)——用光信号直接切换连接,不用电信号转换,延迟极低。之前光路交换机只在训练集群用,现在推理也要用了,市场空间直接翻倍。
谷歌第八代TPU对比上一代Ironwood:训练性jia比提升2.7倍,推理性jia比提升1.8倍,能效翻倍。存储访问速度快10倍,片上缓存大3倍,多芯片协作等待时间缩短5倍。芯片间互联带宽翻倍,数据中心骨干网带宽最高翻4倍。全互联通信从16跳降到7跳,减少56%。推理芯片HBM从216GB增到288GB,带宽从6528提到8601GB/s。集群规模从数万颗扩到13.4万颗,最多可连100万颗。
对英伟达的影响,如果谷歌对外售賣 tpu 还是有影响不小的,对英伟达真正的威胁不是TPU本身,是TPU验证的"训练/推理分叉"路线被行业广泛采用。 如果推理算力需求3-5倍于训练(行业共识),而推理市场被自研ASIC蚕食,英伟达的可触达市场就缩水了。
1,csp 们都开始自研了,达子的稀缺性慢慢稀释。
2,推理 asic 的崛起,芯原和翱捷(刚成立子公司)的好日子来了。
对应的工艺层面最利好的是天孚,在OCS产业链的位置:
OCS核心部件是MEMS微镜阵列,天孚做微镜的feng装和光纤耦合,
FAU光纤阵列是天孚自产的,OCS的每个端口都需要
天孚公告"配合客户开发CPO配套FAU、ELS,持续增加产能"——客户就是谷歌/英伟达
天孚通信:1.6T光引擎处于量产状态目前因为个别物料缺料尚未达到预期产量,积极协调供应商努力争取更多交付。
其他ocs 腾景,赛微,光库等都是受益逻辑面
互联带宽升级:在Scale-up层面,TPU v8的片间互联带宽从TPU v7的9.6 Tbps提升至19.2 Tbps,是原有带宽的2倍,同时通过Boardfly拓扑改变了数据的流动路径。在Scale-out层面,TPU v8的Scale-out带宽提升了4倍,达到400 Gbps。
算力芯片架构更新:面向推理场景,TPU 8i将片上SRAM提升了3倍(达到 384 MB),目的将模型的 KV Cache尽量保留在片上,减少对HBM的网络请求,降低推理延迟。同时,TPU 8i集成了集体通信加速引擎,将芯片内通信延迟降低了5倍。
我们认为:算力基础设施的形态还在持续迭代,推理场景瓶颈不只是单芯片算力,更多地要依靠互联技术软硬件的持续突破提升计算效率。因此,在互联技术领域与客户有较强绑定关系的头部企业有望充分受益。
1)MPO:长芯博创;2)光模块:中际旭创、新易盛、汇绿生态;3)OCS产业链:光库科技;4)CXL:澜起科技。
郑宏达 陈彤 李想
谷歌云发布第八代张量处理器(TPU)的两款新品——专为训练设计的TPU 8t与专为推理优化的TPU 8i,并发布与之配套的相关网络架构更新。
TPU 8t 专为训练而优化,单个superpod可扩展至 9,600 个 TPU,引入了全新的Virgo网络架构,采用高基数交换机与扁平化两层非阻塞拓扑,将数据中心网络(DCN)Scale-out网络带宽提升4倍至400Gbps,芯片间互联(ICI)Scale-up带宽提升2倍至19.2Tbps。单一Virgo网络可连接超13.4万块TPU 8t芯片,提供高达47Pbps的非阻塞双向带宽,整体算力超过160万ExaFlops。
TPU 8i针对推理性能优化,芯片间互联(ICI)Scale-up带宽同样提升2倍至19.2Tbps。TPU 8i组网架构从3D torus转向全新的Boardfly,实现任意两芯片间最大跳数压缩至7跳,减少超过一半,更有利于MoE模型和跨芯片令牌路由。Boardfly采用分层结构,从四芯片构建块逐级扩展至最多1152块芯片的完整Pod,并通过OCS实现组间互联。
观点重申:
谷歌Google Cloud Next大会对光互联带来新催化。TPU端口带宽2倍或4倍升级,算力集群的端口带宽需求快速上升,推动未来800G/1.6T/3.2T等光模块产品迭代放量。新的网络架构增加OCS的使用场景,OCS有望加速渗透,市场规模有望持续得到拓展。
1)大光:中际旭创,建议关注新易盛;
2)小光:光迅科技、联特科技、汇绿生态、剑桥科技、东山精密、长芯博创、华工科技、COHR、FN、AAOI等;
3)新光:CPO产业链,天孚通信,以及炬光科技、罗博特科、致尚科技、蘅东光、LITE、COHR等;OCS产业链,建议关注炬光科技、德科立、腾景科技、光库科技、LITE、COHR等;DCI产业链,建议关注光迅科技、德科立、CIEN、MRVL、LITE、COHR等;
4)物料:光芯片光器件,源杰科技、仕佳光子、永鼎股份、长光华芯、AXT、LITE、COHR等。
风险提示:AI建设不及预期、光互联技术发生重大变化
事件回顾:谷歌在4月22日晚发布TPU 8t和TPU8i两款芯片,关于网络连接部分,我们解析如下:
TPU 8t:定位为训练芯片
【网络组成】Virgo Network+Apollo Network+3D Torus。
3D Torus针对TPU 8t芯片进行常规OCS组网
Virgo Network可针对多达13万卡进行两层交换组网,使用高端口数(high -radix)交换机进行两层组网(预计需要使用512*400G或等效)
Apollo Network:进行更大维度的汇聚层互联,例如大集群由8个13万卡的台区,然后顶层使用OCS进行连接,可以轻松扩展至百万卡集群。
【Scale Up】9600卡内部沿用3D Torus+OCS架构卡。单芯片ICI带宽达到了9.6T(6*1.6T),代表1.6T端口开始广泛使用。1.6T光模块:卡比例为1:1.5,【OCS台数】比例与此前接近,9000卡大概需要48台320*320的OCS。
【Scale Out】单卡scale out带宽达到400G,考虑顶层采用OCS,则换算成800G光模块:卡比例为1:2.5。考虑13万卡集群将产生13w 400G FR4端口,对应13万根光纤(加环形器),对应320*320端口OCS交换机=200台。
TPU 8i:定位为推理芯片
【Boardfly网络优势】传统的3D Torus只能对相邻的6个节点进行直接通信,最大跳数遵循:假设集群为I行J列H高,则最大跳数为1/2(I+J+K),而如果使用boardfly架构下,1024卡规模下仅需要7跳(其中一跳是光条),而3D Torus架构需要(8,8,16)=16跳。其中,OCS直接连接任意机柜(Rack)。
【Scale Up】单卡拥有9.6T ICI带宽,一个板上有4张卡,共有16条外部link,其中11条进行内部互联(copper),另外5条连接到OCS(光)。一个机柜共有8张板,因此共有40条外部link(光)。
【光模块比例】36个机柜*40 外部link共产生1440个端口,对应1152张卡, 1.6T光模块比例为1.25:1。
【OCS台数】考虑每个link大概率是1.6T(2*FR4),产生4根光纤(2收2发),同时配备环形器后每个link产生2根光纤;因此一共有2880个光纤(对应同样数量的OCS端口)。假设使用320*320端口OCS交换机,则1152卡需要5台OCS交换机。
【具体连接】为实现最大跳数7条,5台OCS每台需直接连接36个机柜,恰好每个PCB板(4卡)有5个link,每个PCB板各自有1个link(2根光纤)连接到每个OCS上,一共有36*8=288个PCB板,因此每个320*320的OCS实际占用端口数为288*288(576个端口)。
总结:
【OCS】应用场景更加广泛,两种卡OCS比例相近,假如27年有600-700w TPU,则对应OCS数量将达到Scale up 3w+Scale out 200*55=4万台;
【光模块】假设训练占比200w,推理占比500w,则TPU产生的1.6T光模块数量为625w+300w=925万;800G数量为600w*2.5=1500w。
核心要点:谷歌架构的升级凸显了“连接”的重要性。随着TPU向V8、V9迭代,其网络带宽持续扩张、超节点规模不断扩大,#带动光模块配比提升、OCS应用场景打开,利好谷歌链#中际旭创/长芯博创/光库科技/腾景科技
1)训练芯片TPU8t:更大集群、更高带宽。Scale Out侧采用全新的两层无阻塞Virgo网络,带宽提升4倍;Scale Up侧沿用3D Tours结构,芯片间ICI互联带宽提升2倍,超节点域扩大至9600芯片。带宽提升带动光模块用量提升,如果考虑到光模块从800G迭代到1.6T,#ScaleUp域配比不变+ScaleOut域配比翻倍。Front-end网络采用Jupiter架构,连接存储及CPU#新增OCS用量
2)推理芯片TPU8i:侧重更短的网络直径跳数、时延更低。Scale Up侧采用全新的分层式Boardfly拓扑结构,4个TPU组成一个BB,8个BB通过铜线组成一个Group,36个Group通过OCS连接成1152卡的超节点,网络直径从16跳减少到仅7跳,适配大型MoE模型的低延迟目标。根据我们的计算Scale Up域光模块配比为1:1.25,同时 增加OCS连接
谷歌链的高敞口:中际旭创 (光模块/NPO绝对大份额、OCS储备)、长芯博创 (MPO/AoC)、光库科技 (OCS准直阵列)、腾景科技 (OCS晶体材料+准直阵列)
风险提示:产业发展不及预期。
1)核心事件概述
2026年4月,谷歌云在其年度开发者大会上发布了两款第八代自研TPU芯片:TPU 8T和TPU 8I。8T专为AI模型训练设计,8I则专门针对推理场景优化。这是谷歌首次将训练和推理芯片分开设计,标志着其AI硬件战略的重要转变。同时,谷歌还发布了企业级AI智能体平台,旨在从算力和应用两个层面,挑战当前由英伟达和OpenAI主导的市场格局。
2)两款TPU的核心设计与竞争力
TPU 8T:为大规模训练优化
这款芯片的核心竞争力不在于单颗芯片的峰值算力,而在于其构建超大规模集群的能力。一个TPU 8T超级荚可以扩展到9600颗芯片,提供极高的整体计算吞吐量和约2PB的共享高带宽内存。它重点解决了训练任务中的几个关键瓶颈:高效处理稀疏数据、减少数据在存储和计算单元间的搬运开销、以及优化大规模芯片集群间的网络通信。谷歌宣称,相比前一代产品,8T在训练场景下的“每美元性能”最高可提升2.7倍。
TPU 8I:为高并发推理重塑架构
TPU 8I是本次更具战略意义的产品。它并非训练芯片的简化版,而是针对推理任务完全重新设计。其最显著的特点是资源配置:虽然其峰值算力低于8T,但配备了更大的片上SRAM缓存(384MB,是8T的3倍)、更高的HBM内存容量(288GB)和带宽。同时,它采用了名为Boardfly的新型网络拓扑,能将大规模集群中的通信延迟大幅降低。
这传递出一个清晰的产业信号:谷歌认为,未来AI推理性能的瓶颈将不再是纯粹的计算能力,而是
内存访问的效率和芯片间通信的速度。这对于需要同时运行海量AI智能体或进行复杂逻辑推理的应用至关重要。
3)对英伟达构成的挑战分析
谷歌的新TPU对英伟达构成了实质性挑战,但挑战的范围和性质需要客观看待。
挑战体现在哪里?
挑战的核心在于云端AI计算的系统级经济性。
谷歌并非单独出售芯片,而是提供一套名为“AI超算”的完整解决方案,整合了自研的TPU、CPU(Axion)、高速虚拟网络(Virgo)、高性能存储(如Managed Lustre)及其软件栈。这套方案比拼的是客户运行AI任务时的
综合成本、能效和响应稳定性。
这直接威胁到英伟达在云服务商数据中心内的高利润GPU租赁业务。
为何说挑战有限?
有三个主要原因限制了谷歌短期内颠覆英伟达的可能性:
谷歌采取的是“包容”策略:在发布TPU的同时,谷歌也宣布将率先提供基于英伟达最新一代Vera Rubin GPU的云实例。这表明其真实战略是将客户留在谷歌云平台内,无论他们选择TPU还是GPU,而非用TPU完全取代GPU。
缺乏直接对标数据:目前谷歌公布的性能数据主要是与其前代产品对比,并未提供与英伟达顶级芯片在相同条件和衡量标准下的直接性能对比。
英伟达的生态壁垒深厚:英伟达的优势远不止硬件,其CUDA软件生态、成熟的开发工具、以及遍布全球的企业级销售和支持网络,构成了强大的护城河。谷歌的软件适配(如让PyTorch更好地支持TPU)仍在推进过程中。
结论
谷歌TPU挑战的是英伟达在特定市场(尤其是超大云厂商内部)的定价权和利润空间,而非其在整个AI计算市场的领导地位和生态系统。
4)外部客户采用与行业趋势
TPU的价值已得到外部重量级客户的认可。例如,知名AI公司Anthropic已与谷歌签署协议,将从2027年开始大规模使用下一代TPU。同时,谷歌与芯片设计合作伙伴博通的合作也已延长至2031年。这证明TPU已从一个内部研发项目,成长为可供外部企业采购的成熟商业产品。然而,值得注意的是,像Anthropic这样的客户普遍采用
多元化的采购策略,其AI模型同时运行在AWS的自研芯片、谷歌TPU和英伟达GPU上。这反映出当前的行业趋势是:企业根据不同的工作负载类型,选择最适合、最具成本效益的计算平台,而非“押注”单一供应商。
5)对存储产业链的影响
谷歌此次将存储置于其AI超算架构的核心,这可能是一个尚未被市场充分定价的变化。
存储角色的根本性转变:在大模型时代,存储不再仅仅是用于保存训练进度备份的“后台仓库”。它需要能够以极高的速度(例如10TB/s)向计算集群实时输送数据,扮演起了“前线缓存”和“扩展工作内存”的角色。
关键技术:KV Cache外溢:为了降低推理成本,可以将模型中频繁访问的“键值缓存”数据,从昂贵且容量有限的HBM内存中,部分卸载到外部的高性能存储系统中。谷歌的实验数据显示,这种方法可以显著降低推理任务的总拥有成本。
启示:这一趋势利好的不是传统的企业级硬盘存储,而是高带宽、低延迟的并行文件系统、用于数据缓存的本地SSD/NAND闪存,以及相关的存储管理软件。存储正日益成为内存层级架构中不可或缺的一环。
6)对HBM高带宽内存的影响
HBM仍然是AI芯片的关键组件,并继续受益,但其需求逻辑比简单的“用量暴增”更为复杂。
持续的需求支撑:两款新TPU,尤其是面向推理的8I,都搭载了容量巨大的HBM,表明谷歌坚信HBM对于处理长上下文、混合专家模型等先进AI工作负载必不可少。
但并非无限堆叠:在增加HBM的同时,谷歌也在大力提升片上SRAM的容量,并推动利用外部存储来构建分层的内存体系。这预示着未来的发展方向是通过“SRAM + HBM + 外部存储”的多级缓存方案,以更具成本效益的方式来满足AI对海量内存的需求。
投资启示:HBM的需求在中短期内依然保持强劲。但从长期看,其需求增长曲线可能不会像市场最乐观的线性外推预测那样陡峭,需要关注
单位计算性能所消耗的HBM容量是否会被其他存储层级部分替代。
7)对光通信产业的影响
这对光通信产业是一个明确的利好,并且修正了一个传统认知。
推理也成为网络负载大户:过去普遍认为,只有模型训练才极度依赖高速网络。但谷歌TPU 8I的设计表明,大规模推理(特别是涉及多智能体协同和复杂逻辑链的任务)同样是通信密集型的,对芯片间互联的低延迟提出了极高要求。
网络架构革新:TPU 8I采用的Boardfly网络拓扑,在芯片组之间大量使用了长距离光链路和光路交换技术,从而将大规模集群的内部通信延迟降低了50%以上。这意味着,数据中心内部用于连接大量计算节点的“东西向”光互联需求将迎来新一轮增长。
投资启示:整个光通信产业链将受益于AI算力扩张。但需要留意的是,受益最大的可能并非最通用的可插拔光模块,而是更贴近大型AI集群定制化网络架构
的解决方案,例如:用于芯片组间高速互联的光器件、光路交换系统,以及数据中心级的整体光互联方案。
8)总体结论与产业信号
谷歌TPU 8T/8I的发布,是AI硬件发展进程中的一个重要里程碑。
它标志着AI硬件进入“专业化分工”时代,训练和推理将分别由不同架构的芯片最优处理。
竞争焦点从“单一算力指标”转向“全系统效率”,包括每Token成本、能耗和任务延迟。
对英伟达:形成了真实的竞争压力,主要在于侵蚀其在云端的高利润市场,但短期内难以动摇其生态根基。
对产业链:继续利好HBM、光通信和高端存储,但产业价值的创造和捕获,将越来越依赖于对复杂的内存分层、网络拓扑和系统集成能力的掌握。
未来的投资机会,需要更深入地追踪这些系统级架构的演进,而不仅仅是关注单一元器件的出货量。
*公开资料整理,仅作为行业分析参考,不构成任何投资建议!