251225--英伟达200亿...
发布者:Vito的行研札记
老外休假中,老中卷得快。但这方面走太快有个坏处,就是容易过度逻辑体操——比如不久之前的光换铜争议,TPU利空GPU,再久远一点的固态电池利空隔膜,HJT电池片和TOPCON电池片势不两立。在大势面前特别抠细节, 这个事儿研究半天利空HBM还是利多光,我说句实话都是CN吊毛资本给自己加戏,亲自为持仓创造波动。 抽象出来主线应该是啥?是之前三大反指共襄盛举推出的黄金见顶论破灭了,AI泡沫论似乎也在证伪的路上。目前新技术创业公司仍愿意被巨头高价收购——Groq上一轮融资估值69亿刀,现在英伟达出价200亿。此外Open AI在与亚马逊的百亿融资中不光维持住了5500亿估值,下一期融资还在试图冲刺7500亿,这借我六副眼镜我也看不出来是泡沫正在破。当多头只是赚多赚少的区别,空头是排队等死的问题。 所以这会儿重要不是各类新技术题材你怎么绣花,是面向明年顺周期+电力+AI CAPEX的基仓你拿稳了没有。战略性出问题了战术是修补不了的,比如以明年美国衰退为拍脑门出发点,看一切都可以利空解读;也可以写个LPU后面利空A环节,利空B环节的解读。但是圣诞前标普刚刚新高。从商品市场到权益市场一堆东西在新高,从贵金属到有色金属再到光通信、存储器和电力,背后其实都有AI的影子,AI就是最大的宏观。 目前AI中上游环节仍是供给创造需求的过程,新技术的供给格局冲击,远小于新增需求拉动。下面我分别PO两个解读,分别是外资和内资的。其实一眼就能看出风格差异,老外真没那么博弈,英伟达大撒币?你好我好大家好,干嘛非得研究谁好谁不好?反内卷最需要反的是脑子,period.
平安夜(令人欣喜的是),CNBC报道称英伟达将以 。随后,Groq宣布已与英伟达就其推理技术“达成非独家许可协议”,创始人Jonathan Ross、总裁Sunny Madra以及“Groq团队其他成员”将加入英伟达。声明还指出,Groq将继续作为独立公司运营(现任Groq首席财务官Simon Edwards将接任首席执行官),其云服务也将继续运营。 截至撰写本文时,实际条款尚未披露,但这似乎更像是英伟达对技术和人才的争夺,而非直接收购(从反垄断角度看可能也更易被接受)。我们推测Groq的产品和知识产权将整合到英伟达未来的产品路线图中。若协议最终达成,这将成为英伟达近期众多AI投资的一部分,且(若200亿美元的数字准确)将是 (相比2017年以约70亿美元收购Mellanox)。 Groq由谷歌TPU创造者Jonathan Ross于2016年创立,专注于高性能推理。其芯片产品名为“语言处理单元”(LPU),可顺序处理大量数据(不同于GPU的并行处理),并利用大量嵌入式片上SRAM在芯片上存储模型参数。与大多数AI初创公司一样,Groq声称其产品在速度、功耗和成本方面较GPU有显著提升。 (图表1)。CNBC提到该公司今年收入约5亿美元;我们了解到,Groq在2024年年中融资时曾预测2024年收入约2.2亿美元,并将2025年目标定为70亿美元(因此目前略有未达预期……) 此举对英伟达而言具有战略意义,因其正利用日益强劲的资产负债表维持在关键领域的主导地位。英伟达已是AI训练领域的绝对领导者,但推理工作负载更为多元化,且(可以说)可能为竞争开辟新领域。因此,在推理规模扩张之际,投入资金(即便200亿美元)以填补新能力、进一步巩固其已然领先的地位,对我们而言是合理的,尤其是若Groq的架构确实具备独特优势(若属实,无论是否“非独家”,阻止竞争对手获取该技术当然也有益处)。 反垄断似乎是此处的主要风险,尽管将交易结构设计为非独家许可可能维持竞争的表象(即便Groq的领导层及我们推测的技术人才已转投英伟达)。当然, 。 圣诞快乐! 在 2025-12-24,路透等报道,称英伟达与芯片设计公司 Groq 达成非独家技术授权并吸纳其高管/工程团队;条款可能达到200亿美元,相比此前Groq上一轮融资估值提升两倍。 怎么看待Groq的软硬件架构? 编译器为先,网络确定性为先。Groq创始人为TPU首代设计者,在Groq中1)确定性、编译期调度的流式执行(streaming / static schedule)依赖编译器把算子“排布成一条流水”,尽量避免运行时调度、复杂乱序、巨型多级缓存体系带来的不确定性。 2)用片上 SRAM 取代 HBM 访问,通过更大的片上 SRAM / scratchpad(以及更明确的显式数据搬运)来减少对外部内存随机访问与带宽峰值的依赖。同时因为SRAM过于昂贵单卡无法独立放下LLM,通过互联实现大模型推理 3)把“吞吐/延迟可预测性”放在首位,柜间互联chip to chip不用交换机,采用蜻蜓架构与大量光模块。此前主要通过三星实验性流片,并且一度实现推理延迟世界第一(后被sambanova等超越),在批不变=1的模式中最为高效。 我们认为“网络确定性”在强化学习时代重要性大幅提升。谷歌、Anthropic、Machine Lab均预测在线强化学习能力在未来三年将出现重要突破,从而成为大模型能力提升和AGI的最重要贡献之一。而在此前,在线强化学习的不稳定性是阻碍其突破的关键因素,Machine Lab今年发布论文, 认为“LLM 推理非确定性核心来自批处理差异与负载驱动,并发与批/shape 变化触发了不同的计算路径,"批不变内核"的网络确定性有望大幅提升在线强化学习的稳定性。 英伟达收购Groq,影响几何? 软件测:英伟达或许会有固定 batch/调度的软件栈出现,有望助推低延迟推理、在线强化学习进步的。 硬件侧:groq模式我们认为对于“低延迟”“持续学习”的需求场景下构成硬件全新增量,且"批不变内核"下算力存储高稳定性需求均大幅提升,我们认为在这种增量场景中,光模块,存储(SRAM等 近存内存拓展)、先进封装需求均继续提升,交换机占比较小。 🔗 英伟达与 Groq:二阶和三阶战略基础设施效应及市场影响 💡 公开报道显示,英伟达已同意以约 200 亿美元现金收购 Groq,但交易范围不包括 Groq 新兴的云业务。据报道,此次业务剥离实质性地限制了此次收购与英伟达控制的增量数据中心容量建设之间的直接关联,因为 GroqCloud 似乎是 Groq 硬件目前作为服务大规模变现的主要渠道。 💡 因此,基础设施市场的影响主要取决于交易完成后的产品战略:英伟达是(1)将 Groq 芯片作为独立的推理产品线进行商业化,并通过 OEM/ODM 渠道和合作伙伴推动广泛部署,还是(2)主要利用此次收购吸收知识产权(IP)和人才,同时淡化独立的 Groq 硬件销量,抑或是(3)利用 Groq 技术重塑英伟达自身的推理系统和网络路线图。 📊 对内存、网络和设施基础设施市场的传导机制 🔍 核心传导逻辑:英伟达在多大程度上将增量推理部署从与外部高带宽内存(HBM) 紧密耦合的 GPU 架构,转向 Groq 当前的架构。 🔍 Groq 架构的核心特点:强调大容量片上 SRAM、确定性编译器调度执行和直接芯片到芯片连接。独立及公司发布的资料显示,Groq 当前一代技术无外部内存,处理过程中权重和 KV 缓存均保留在片上;但由于单个设备的片上 SRAM 容量有限,需跨多个芯片进行模型分片。 🔍 架构选择的影响: 对 HBM:在每个加速器基础上呈负面影响; 对 DRAM、NAND、网络、功耗和散热:在每个 token 基础上影响模糊 —— 该设计虽能减少内存墙损耗和尾部延迟开销,但可能增加服务大型模型与长上下文工作负载所需的芯片数量及互连端点数量。 🧠 HBM 的市场影响 📌 影响性质:HBM 的影响是最直接的机械性影响,但应视为 “二阶导数” 而非绝对数值变化。 📌 潜在需求变化:若 Groq 级推理芯片显著取代基于英伟达 GPU 的推理部署,与推理增长相关的增量 HBM 位需求,可能较 “仅使用 GPU” 的基准水平减少(因 Groq 当前方案未给每个加速器配备 HBM 堆栈)。 📌 当前市场现状:HBM 仍处于供应受限状态,需求受多重因素拉动 —— 包括持续扩大的 GPU 训练规模、高容量推理配置;头部供应商表示,HBM 供应紧张状况将持续至 2026 年以后。 📌 两种情景预测: 下行情景:出现持久的架构分叉 ——“足够好” 的推理(延迟敏感、批处理为 1、每 token 成本优化场景)在广泛部署中,不成比例地转向无 HBM 的 ASIC;而训练仍由 GPU-HBM 主导。此情景将减少未来推理计算中通过 HBM 变现的比例,可能压缩 “每 AI 美元的增量 HBM 比率”。 上行 / 中性情景:无论架构如何变化,HBM 供应链仍保持完全分配状态;英伟达可将 “释放出的” HBM 用于向训练和长上下文推理领域输送更多高端 GPU(尤其随着路线图中 “每 GPU 搭载 HBM 容量” 提升),即使推理架构趋于异构,仍能维持强劲的 HBM 总位需求。 🧩 传统 DRAM 的市场影响 📥 影响渠道分为两类: DRAM 晶圆产能转向 HBM:供应商反馈显示,AI 驱动的内存需求正广泛支撑 DRAM 市场;而 HBM 生产相较于传统 DRAM 更耗资源,会同步导致 DDR 产品供应紧张。 AI 集群中每台服务器的 DDR 含量:若英伟达大幅转向 “减少 HBM 依赖” 的推理架构,在边际上可缓解 HBM 驱动的严重瓶颈,让内存制造商在平衡 DRAM 产品组合时更灵活 —— 这可能在供应侧对 DDR 略微有利(减少 HBM 对 DDR 产能的挤占),即使需求侧因 “加速器利用率提升导致每节点 CPU/DDR 需求下降” 而呈中性或轻微不利。 📌 实际结果预判:DDR 需求仍将受两大因素支撑 ——AI 服务器的广泛普及、系统层面(CPU、网络堆栈、缓存层、检索增强管道)内存占用增加;而 HBM 仍将是核心利润池。因此,即使每个加速器的 DDR 需求无显著增长,“HBM 替代带来的服务器总量增加” 也可能间接维持 DDR 需求的弹性。 💾 NAND 闪存的市场影响 🔍 影响特点:相对间接,且由容量驱动而非架构驱动。 🔍 推理集群对 NAND 的需求场景:需 SSD 容量用于模型存储、容器镜像、日志记录,以及日益增多的 “快速本地检索索引” 和 “嵌入存储”;但每单位计算的存储占用,通常小于需暂存大型数据集和检查点的训练管道。 🔍 潜在需求变化:若英伟达利用 Groq 大幅降低推理成本与延迟,从而扩大推理部署位置(区域托管、企业本地部署、主权区域部署),即使单个站点存储量不大,“地理碎片化 + 模型工件在多站点复制” 也可能推动 SSD 总附加量上升。 🔍 市场定位:NAND 的影响可能体现为 “需求范围扩大” 与 “产品组合优化(数据中心 SSD 占比提升)”,但并非相对于 “宏观 AI 资本支出周期” 和 “消费端 / 设备周期” 的主要影响因素。 🔍 对硬盘驱动器(HDD)的影响:直接敏感度极低 —— 近线 HDD 需求由大容量存储和云归档经济性驱动,而推理加速选择主要重塑计算与网络层;HDD 若有收益,也是数据中心总面积扩张的 “三级衍生效应”,而非 Groq 芯片取代 GPU 的直接结果。 🔌 光网络的市场影响 1. 光网络的场景区分 📌 需明确两类场景:(1)连接加速器的 “集群内后端结构”;(2)连接站点与区域的 “前端 / 数据中心互连(DCI)”。 📌 Groq 的扩展需求:第三方报告及 Groq 自身定位显示,超越单个节点或机架的扩展需依赖高带宽结构;部分配置中,光学互连需扩展至数百个芯片。 2. 英伟达规模化商业化 Groq 的抵消力量 ✅ 需求推动因素:更低的每 token 成本与更优延迟,可能扩大推理吞吐量并驱动更多东西向流量,进而增加对高速交换和光学器件的需求。 ❌ 需求抑制因素:若 Groq 在部分工作负载中显著提升 “利用率” 和 “每单位网络带宽的 token 数”,则每服务 token 所需的网络资源可能减少。 3. 英伟达的光子学路线图关联 📢 英伟达公开资料显示,其已制定积极的光子学路线图,旨在扩展 AI 工厂,包括共封装光学(CPO)交换机,以及与 Coherent、Lumentum 在硅光子供应链中的明确合作。 📢 关键意义:无论 Groq 如何,英伟达已在推动光学集成向交换机封装深度渗透,以降低功耗、提升弹性;若推理变得更分布式、对延迟更敏感,Groq 将进一步强化 “降低网络功耗与延迟” 的战略必要性。 🏭 对 Lumentum 与 Coherent 的具体影响 🔍 核心影响:并非 “光学器件数量增减”,而是 “光学器件形式与价值捕获方式的转变”。 🔍 共封装光学(CPO)的作用:在部分交换机架构中减少对可插拔收发器的依赖,同时增加对 “集成光子引擎、激光器、光纤连接、封装工艺、组件级供应” 的需求。 🔍 合作定位:英伟达公告明确将 Coherent、Lumentum 列为 “光子交换机集成硅 / 光学工艺及供应链” 的合作伙伴。 🔍 两种潜在情景: 若 Groq 加速向 “超大规模结构(更多端点、更高端口速度、更紧凑功耗包络)” 过渡,将推动 CPO adoption 提前,放大对底层光子组件的需求(即使传统可插拔模块的总可用市场(TAM)长期受结构性压力); 若 Groq 推动推理向 “更小、更本地化集群(贴近用户、区域托管)” 发展,将对 DCI 和城域连接有利 —— 需以高带宽、低延迟互连更多站点,利好相干光学及设施间高速互连。 🔍 光学供应商的核心风险:时机与利润结构 —— 若快速转向英伟达主导的集成光子学,可能集中议价权、压缩商品化收发器模块的利润;但对 “在英伟达 CPO 生态中拥有差异化激光器、集成能力及认证深度” 的供应商更有利。 🧪 AEC 与铜互连的市场影响 📌 影响核心:Groq 部署是否增加机架与行内短距离链路的密度。 📌 高速铜缆的优势与局限:在极短距离内仍具成本、功耗、可维护性优势;但随着通道速度与总带宽提升,传输距离受限,为有源电缆(AEC)、重定时器、信号调节芯片创造需求。 📌 Credo 的产品定位:其 AEC 产品明确瞄准 “AI 集群可靠无损 800G 连接”,且公司在英伟达 GTC 大会中强调 “用 AEC 扩展 PCle/CXL”—— 这与 “需比无源铜缆更长传输距离、更高信号完整性” 的下一代系统拓扑高度相关。 📌 英伟达部署 Groq 的短期影响:若将 Groq 转化为广泛部署的推理卡或机箱产品,短期内可能对 AEC 产生利好,原因包括: 推理吞吐量提升将增加机架顶部连接需求; 推理向更多机架 / 站点分布,会增加每单位交付服务的短距离链路; 随着系统转向 PCle 6.x 及更高版本,PCle 连接的加速器架构需更强信号调节。 📌 Groq 的封装策略佐证:Groq 研讨会材料明确提及 “GroqCard” 与 “GroqNode” 外形尺寸,印证 “PCle 连接部署” 是其当前封装策略的核心。 📌 对冲风险:Groq 的确定性芯片到芯片互连结构,可能主要通过背板和直接板级连接实现,减少盒内对商用 AEC 的需求;此时增量 AEC 需求将更多集中于 “机架到交换机” 和 “节点到互连结构” 链路,而非机箱内芯片互连结构。 🔗 对 Astera Labs 的市场影响 📌 影响关键:依赖连接架构;若英伟达增加 AI 系统的异构性与分解性,总体影响偏向积极。 📌 英伟达与 Astera Labs 的合作基础:英伟达已公开将 “NVLink Fusion” 定位为合作伙伴构建半定制 AI 基础设施的路径,并明确将 Astera Labs 列为该生态伙伴;Astera 表示,其 NVLink 相关解决方案已将连接平台扩展至 PCle、CXL、以太网,以及车队可观测性软件。 📌 收购 Groq 的潜在推动:收购增加了英伟达提供更广泛加速器(训练 GPU、推理专用 ASIC)的可能性,进而提升 “跨混合拓扑的可扩展、高可靠性连接 / 重定时 / 交换 / 遥测” 的重要性。 📌 两种部署场景的契合性: 若 Groq 芯片在多数部署中仍采用 PCle 连接,PCle 6.x 重定时器 / 交换机及有源电缆模块将更核心,与 Astera 核心产品组合契合; 若英伟达将 Groq 概念整合至 “横向扩展结构(类似 NVLink 的域)”,或利用 Groq 扩展 “需在托管环境快速部署的推理设备”,对 “符合标准、可维护且具备强 RAS / 遥测功能的连接” 需求将增加,同样与 Astera 定位契合。 ⚡ 对电力设备与冷却的市场影响(以 Vertiv 为例) 1. 分析视角 📌 需从三方面评估:机架功率密度、冷却方式(风冷 vs 液冷)、站点部署模型(超大规模园区 vs 分布式托管 / 企业)。 2. Groq 的硬件设计特点 📢 Groq 声称其 LPU(推理处理单元)与机架设计 “天生支持风冷”,无需复杂冷却与电力基础设施;第三方报告显示,Groq 的技术路径依赖 “多低功耗单元并行”,而非单芯片极致性能。 3. 对冷却市场的潜在影响 🔄 支出结构变化:若英伟达将 Groq 扩展为主流推理平台,数据中心冷却支出可能适度从 “最高密度液冷机架” 转向 “更多风冷或混合部署”,尤其针对 “现有设施中难以改造以适应极高机架热通量” 的推理集群。 🔄 对供应商的分化影响: 利空:对 “仅高度依赖高端机架液冷附件” 的供应商构成组合层面的压力; 中性 / 利好:对 Vertiv 而言,未必是销量压力 —— 其业务覆盖电力与冷却基础设施全领域,且 AI 部署总地点大概率增加。 4. Vertiv 的行业观点佐证 📌 Vertiv 行业评论强调:AI 机架需更高功率密度的 UPS、电池、配电设备及 “可应对快速负载波动” 的开关设备;且混合冷却系统将在不同部署环境中逐步演进。 📌 逻辑契合:即使单机架密度低于极端训练集群,推理增长仍会增加 “带电机架数量”,并提升电力交付的运营复杂度 —— 与 Vertiv 的业务定位一致。 会议时间:2025-12-25