返回话题列表
乐晴行业观察
2026/01/04 08:25
类型 talk 12阅读 1

国产算力更新:百度昆仑芯+De...

发布者:乐晴

①1月2日,百度公告其子公司昆仑芯已于元旦当日以保密形式向香港联交所提交上市申请(A1表格)。

②DeepSeek12月31日发布新论文;DeepSeeK R2或在春节期间发布。

③全球科技风向标-消费电子展CES 2026展会将于1月6日至9日期间举行。英伟达CEO黄仁勋、AMD掌门苏姿丰等科技领袖将于1月5日(北京时间周二凌晨至早间档)发表主题演讲。阿里巴巴、联想、三星电子、LG等亚洲科技力量将在拉斯维加斯集中亮相。事关英特尔代工业务命运的首款“18A”芯片届时将浮出水面。

事件: 1月2日,百度公告其子公司昆仑芯已于元旦当日以保密形式向香港联交所提交上市申请(A1表格)。

本次分拆预计将为百度带来国产算力重估空间。 昆仑芯前身为百度智能芯片及架构部,于2021年4月完成独立融资,首轮估值约130亿元。其产品主要应用于数据中心、云计算及自动驾驶等领域。目前昆仑芯上市前最新一轮估值210亿元,其中百度持股近60%。

首款支持“满血版”DeepSeek的国产芯片:目前昆仑芯P800系列已累计部署数万片,单集群规模突破3万卡。核心亮点在于它是首款支持单机部署DeepSeek V3/R1(671B满血版)的国产芯片。在训练端其万卡集群的模型计算利用率(MFU)已可追平传统GPU千卡集群效果。百度“软硬一体”的深度协同(与飞桨框架结合)使得推理效率提升30%以上,极大地降低了超大规模MoE模型的硬件门槛。

国产AI芯片第一梯队持续拿下重要客户订单: IDC数据显示,2024年昆仑芯出货量达6.9万片,约为寒武纪(2.6万片)的2.65倍,稳居国产AI芯片第一梯队。今年成功中标中国移动十亿元级订单。预计昆仑芯独立IPO后,其“中立供应商”身份将进一步增强有助于打开外部运营商、国资云及其他互联网大厂的市场缺口。

我们持续看好中国AI价值重估行情,相关核理1)平台型互联网公司,具备算力资源、模型能力与应用场景协同优势,百度集团、腾讯控股、快手、阿里巴巴、哔哩哔哩、小米集团、美团、携程集团;2)具模型或应用能力的AI生态企业:京东健康、阿里健康、汇量科技等。

风险提示:AI落地进展不达预期,行业竞争加剧

联系人:国联民生海外团队 孔蓉/杨雨辰/樊程安吉

百度旗下昆仑芯以保密形式递表港交所

1)百度公告,2026年1月1日昆仑芯已透过其联席保荐人以保密形式向香港联交所提交上市申请表格(A1表格)。昆仑芯已成功推出两代通用AI计算处理器产品:昆仑芯1代AI芯片、昆仑芯2代AI芯片,及多款基于昆仑芯AI芯片的AI加速卡:K100、K200、 R100、R200系列。

2)百度自用昆仑芯一代和二代推理卡出货量达到3-4万颗,训练用第三代卡出货量超过4万颗,目前自场景主要覆盖百度搜索、文库、翻译、贴吧等,外售卡主要应用在腾讯模型训练。昆仑芯目前大量主要依靠三星代工,SMIC产能提升正在加速。下一代产品P900(昆仑芯四代)已经准备流片,设计是三代的双倍性能,精度上并加强FP8支持和FP4。昆仑芯2026年客户预期包括百度自身需求、字节、腾讯以及运营商,营收有望突破百亿。

壁仞科技1月2日登录香港联交所

1)2026年1月2日,壁仞科技作为“港股GPU第一股”在港交所主板上市,开盘股价上涨82%至35.7港元/股,盘中最高涨幅达118%至42.88港元/股,总市值一度突破1000亿港元,成为2026年港股首支上市新股及18C制度以来最大规模IPO。

2)壁仞科技专注通用GPU芯片及智能计算解决方案,产品覆盖云端训练、推理及边缘计算场景,已交付BR106、BR110等芯片超1.2万颗。截至2025年12月15日,公司手握8.22亿元未完成订单及12.41亿元框架销售协议。

国产算力整体板块闪耀时刻来临

字节预期2026年capex超过1600亿元,豆包DAU(日活跃用户数)破1亿,火山引擎披露豆包大模型日均token调用量已超50万亿。预计2026年国内互联网大厂在AI芯片上的capex将超过1600亿元,相比2025年的900亿元提升80%,同时2026年在国产卡的采购比例上要高于2025年,未来H200专注训练,国产AI芯片专注推理的“双轨格局”将形成,英伟达H200提升国内csp厂的模型能力的同时,国产csp厂对于国产推理卡的采购量将显著提升。

因此,请增强对于2026年国产算力板块的信心,国产AI时代已经来临,并且产业边际变化正在加速,以hwj、昇腾为首的国产第一梯队AI芯片正在不断追赶NV。AI芯片(寒武纪、百度)、fab厂(中芯国际A/H、华虹公司A/H)、设备(北方华创、中微公司、中科飞测)、先进封装(通富微电、甬矽电子)。

事件:百度正式提交分拆昆仑芯赴港上市申请。百度作为国内拥有“全栈自研架构+大规模落地验证”的标的,昆仑芯IPO将为百度提供一定的优势,也有望提振互联网及AI板块情绪。

评论:

1)昆仑芯本身具备一定的差异化竞争能力和生态护城河(飞桨)。一、昆仑芯的强项在于搜索与大模型推理。经过百度内部十年以上搜索业务的高并发打磨,昆仑芯在视频处理、自然语言处理等特定场景的能效比更好。二、昆仑芯已经完成对飞桨生态的底层穿透。“芯片+深度学习框架”的强耦合跑通闭环,也一定程度上增加了客户的迁移成本。三、新品发布:据25年11月的百度世界大会信息,昆仑芯M100(针对大规模推理场景)和M300(面向大规模的多模态模型训练和推理),将分别于2026、2027年上市。

2)昆仑芯上市前估值梳理:昆仑芯前身为百度“智能芯片及架构部”,于2021年4月完成独立融资,首轮估值约130亿元。根据每日经济新闻,昆仑芯25年最新融资后的估值约为210亿元。根据腾讯新闻《一线》,外部客户包括互联网、手机厂商、运营商及央国企等。

3)昆仑芯或也将为百度带来capex的结构优化。国内云计算市场目前面临价格战,昆仑芯的大规模部署将降低百度AI云硬件成本。此外,分拆上市将助力其走出百度生态,获得更多领域的国产算力订单。

风险提示:分拆仍需监管核准,存在不确定性;地缘政治及技术迭代风险;研发进度及外部客户拓展不及预期。

1)厘清业务价值,优化治理与融资。百度于1月2日发布公告,建议分拆旗下昆仑芯科技并于港交所主板独立上市。本次分拆的核心目的在于更清晰地展现昆仑芯的业务价值与市场定位。作为百度自研的AI芯片平台,独立上市有助于其吸引专注于AI芯片赛道的投资者,通过独立融资平台拓宽资金渠道,缓解芯片研发高投入带来的资金压力。同时,独立的上市平台也有助于优化昆仑芯的公司治理与激励机制,激发团队活力。百度预计将保留昆仑芯多数股权,分拆后其仍为子公司。

2)国产算力关键期,业绩兑现可期。此次分拆正值国产AI算力从“可用”向“好用”跨越的关键阶段。昆仑芯已迭代至第三代,并推出了面向推理和训练的新品(如M100、M300),计划于2026-2027年上市。其自研芯片已大规模部署于百度内部的文心大模型训练及推理场景,并已验证了在万卡集群上的稳定性。独立上市将加速其商业化进程,使其不仅能更好地服务百度生态,更能作为独立供应商,向外部金融、科研、制造等行业输出算力,加速国产算力替代进程。

3)完善AI全栈布局,增强生态韧性。昆仑芯的分拆是百度“芯片-框架-模型-应用”全栈AI布局的重要一环。通过分拆,百度在保持控制权的同时,将芯片业务与云服务、模型服务等业务在资本层面适度解耦,有助于各业务单元更灵活地响应市场需求,构建更具韧性的AI产业生态。此举也向市场传递了百度持续深耕AI底层技术、并致力于通过技术创新实现商业价值转化的坚定决心。

4)风险提示:本次分拆仅为建议阶段,尚需满足多项条件(包括港交所批准、证监会备案等),存在不确定性。此外,AI芯片行业技术迭代迅速,且受地缘政治影响较大,需持续关注其后续产品研发进度及市场环境变化。

建投海外团队:崔世峰/于伯韬/许悦/李佳怡/向锐

2016年至今,几乎所有大模型都在使用“残差连接”(Residual Connection)作为深度学习架构的基石:主要解决神经网络层数太深就训练不动的问题。这种残差连接像一条单车道小路,让车(数据)稳稳地开,不会出事。

2024年超连接(Hyper-Connections, HC) 的研究试图打破这一常规,它把小路扩成 4 条车道,车多了,性能涨了,但车能随便换道、掉头,结果事故(梯度爆炸)频发。

Deepseek最新论文提出了一种名为"流形约束超连接"(mHC)的创新架构,通俗来说就像在高速公路(mHC)和羊肠小道(传统残差连接)之间找到了完美平衡:

DeepSeeK 引入"双随机矩阵"这一数学工具(想象交通信号灯系统),强制让所有连接变换满足两个条件: 1)信号强度守恒(不会突然放大/缩小) 2) 多层组合后仍保持稳定(就像接力赛不会丢棒)。

核心意义:

不是微调,是优化了全球用了十年不变的深度学习宏观架构,而且由中国提出,2026年为AI开了好头

再次体现DeepSeek追求的初心:用更少的资源做出更强的模型,实际效果:

工程巧思 :通过三大优化实现"鱼与熊掌兼得":

1)算子融合:把多个计算步骤"打包"处理,降低60%内存访问;

2)智能重计算:像游戏中的"即时存档",只重算关键数据;

3)通信隐藏:让数据传输和计算"并行不悖" 。最终仅增加6.7%训练时间,就换来了显著性能提升。

在27B参数模型上,mHC在BBH/DROP等推理任务中比传统方法提升2%以上。更惊艳的是扩展性--无论是增大模型规模(从7B到65B)还是增加数据量,mHC的优势持续扩大,证明其真正具备"大模型时代"所需的稳定性。

免责声明:基于公开资料整理,可能存在信息滞后或更新不及时、不全面的风险;任何情况下均不构成投资建议。

国联民生计算机 吕伟

这个论文讲的东西表明,最前沿的AI架构师已经在自觉地运用复杂系统思维。它不是在系统变得复杂后被动应对,而是主动设计规则,引导复杂性向预期的有序方向演化。

(简单来说,mHC是一种全新的神经网络连接方式。它要解决的核心问题是:传统的超连接虽然能提升模型性能,但由于连接过于自由,会导致训练时信号爆炸或消失,非常不稳定。

mHC将网络中多股并行的信息流,通过一种称为双随机矩阵流形的数学结构进行“约束”。这个约束就像是为复杂的信息流动制定了交通规则,确保了无论信息流如何内部互动,其整体能量是稳定、受控的。最终,系统得以在稳定前提下,涌现出更强大的性能。)

就是复杂系统在可设计的约束下的有序涌现。

1)牛不牛?牛,架构层面的改良,海外讨论度高+风评好。

2)有没有即时的资本市场影响?未必。

第一,这是更加学术性,实验性的论文,真正的影响可能在 DeepSeek v4 出来的时候才有。

第二,大家经过 deepseek1.0,已经能够理解,突破会带来更多的模型能力突破,带来更多的模型应用,而非“零和游戏”

3)有啥叙事性?

第一,deepseek 喜欢假期发布。坏习惯可能预示着...春节假期有什么发布也不足为奇。deepseek 的每一次论文发布,v4 就应该越近。

第二,这份 mHC 论文是建立在之前字节 HC 论文之上,做的一个实验性改良版。开源生态,导致了这个飞轮能够更快的转动。海外封闭模型,在路线技术上的改良,很难有这种“复利效应”;

第三,跑分是一回事,实验室能力是另一回事。deepseek 的论文继续给学术界带来新的观点,对于开源人才生态的影响也能有正向循环。

2026年1月DeepSeek发布《DeepSeek mHC: Manifold - Constrained Hyper - Connections》(论文水印25-12-31),引发产业刷屏,我们仔细阅读原始论文:

背景与效果

何恺明resnet(残差训练)在2016年名声大噪(CVPR 2016 最佳论文),超连接HC(Hyper-Connection)加强残差。

本篇mHC(Manifold-contrained HC)显著提升,解决训练扩展性、不稳定问题(典型值优化3个数量级)。有限硬件成本增加(典型增内存6.7%,一贯DeepSeek风格)

大家关心的趋势和投资问题

1)利好AI应用训练。特别适合残差高频领域,如图像视频和复杂特征逻辑推理(复杂难题)

2)高普适性,尤其训练,尤其端侧。普适很多模型(论文里3B/9B/27B都有),低成本端侧训练/推理容易被显存占用问题缓解。此前残差训练容易梯度爆炸或内存等待

3)内存/缓存/光器件/计算开销?

(不大的新增计算开销。论文里的n流残差流水线延迟,和Lr层mHC核心重计算,用流水线DualPipe 优化。论文典型值内存增加6.7%)。

(新增缓存,如各阶段初始激活值Xlo本地缓存。但不大,因整计算丢弃核心中间激活值)

(光器件几无变化。光模块带宽与之前一致)

(减少存储io次数。大大提高训练稳定性,降低训练中断的重复IO。利好企业级ssd,减少高速ssd依赖)

4)GPU利用率提升?

(GPU利用率大幅提高,典型值90%+。解决内存墙等待。本来残差计算不收敛,不稳定)

(论文提出,原HC虽然优化残差,但易导致信号 / 梯度失控,多流并行放大内存压力。mHC论文从Sinkhorn-Knopp算法开始优化)

本篇涉及的DeepSeek关键技术(尤其线性代数+通信+AI_Infra)

1)承认transformer+稀疏的FFNs(前馈网络)

2)基于Sinkhorn-Knopp算法。将非负矩阵迭代缩放为双随机矩阵,本论文中,是解决超连接训练不稳定的关键技术

3)融合核,缓解内存带宽翻倍问题

4)Amax Gain Magnitude衡量残差流爆炸

5)流形约束超连接,把残差约束到

*公开资料整理,仅作为行业分析参考,不构成任何投资建议!