国产算力更新:DeepSeek...
发布者:乐晴
事件:9月29日,DeepSeek-V3.2-Exp 发布。DeepSeek宣布官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp。
①关键词:极致性价比+国产化day0适配。
②明确适应适配寒武纪、昇腾,算力针对性优化。寒武纪在官方微信号宣布,已同步实现对深度求索公司最新模型DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎vLLM-MLU源代码。
③大幅度降价。得益于新模型服务成本的大幅降低,官方API价格也相应下调。此前有AI应用公司认为,tokens需要降价75%,才能适应应用推广,DS一把降价到位。
DeepSeek V3.2版本是实验室版本,最大的亮点是引入了稀疏注意力架构(DSA)。
这一设计能显著降低计算资源的消耗,并提升模型的推理效率,是其实现效率突破和成本控制的技术基础。
华为云平台已成功适配该模型,将其上下文处理能力提升至最大160K的长序列,极大地增强了对超长文档和复杂对话场景的支持能力。
更为直接的是,效率提升带来了使用成本的大幅降低。
DeepSeek 官方宣布 API 价格即刻下调,整体调用成本降低超过50%,其中输入和输出价格分别降低50%和75%。
这使得开发者能够以更低的成本获得强大的模型能力,利好下游应用公司部署。
1)模型亮点:降本50%
引入DeepSeekSparseAttention(DSA),针对【长文本】的训推效率进行了【探索性】的优化和验证。在测试集表现与V3.1-Terminus相近的情况下,API的成本将降低50%以上,输入(缓存命中)/(缓存未命中)/输出分别定价0.2/2/3元每百万Tokens。
2)DSA:长文本性能&整体性价比提升
和DeepSeek此前提出的NSA的算法逻辑类似,通过信息预筛选(只处理关键信息)降低注意力计算压力。其核心机制在于闪电索引器(LightningIndexer)用很少的头数(计算量)和FP8低精度实现信息高效筛选,主注意力模块(核心模型)只处理筛选后的重要信息,进而实现长文本性能提升和成本下降。
3)算力影响:国产芯片与国产模型真正实现相向而行
本次开源的算子包含TileLang与CUDA两种版本,官方建议社区使用基于TileLang的版本以方便调试和快速迭代。华为宣布昇腾0Day支持DeepSeek-V3.2-Exp,立刻支持FP16部署,在128K长序列下能够保持TTFT低于2秒、TPOT低于30毫秒的推理生成速度。其他国产芯片龙头也宣布0Day适配并支持TileLang。结合8月21日的UE8M0FP8,我们认为国产芯片与国产模型真正实现相向而行。
4)应用展望:重视国产AI应用拐点机遇
本次V3.2-Exp为实验版本,当前DSA效果亟待产业验证,尤其在非标准场景下的指令跟随和幻觉率情况值得持续关注。但如我们此前周观点的内容,模型性能升级与成本降低同步进行利好应用落地,我们预计核心国产应用公司AI贡献占比2025年起将显著提升,建议重视国产AI应用拐点机遇。建议持续关注三条投资主线:
1)算力产业链:国产算力芯片头部公司、寒武纪、海光信息、浪潮信息、深信服、工业富联、金山云、网宿科技、智微智能、中芯、华虹等;
2)通用Agent应用:金山办公、金蝶国际、第四范式、税友股份、鼎捷数智、用友网络、北森控股、泛微网络等;
3)垂直Agent应用:科大讯飞、讯飞医疗科技、京东健康、同花顺、恒生电子、九方智投控股、阜博集团、中科创达、宇信科技、广联达、中望软件、华大九天、索辰科技、焦点科技、光云科技、当虹科技、明源云等。
继22号发布V3.1-Terminus,DeepSeek在V3.1基础上引入了新的优化算法DSA(稀疏注意力),更新发布了V3.2实验版。
体感改变:
1)性能上和V3.1-Terminus差距不大,V3.2重点「不在优化性能」,官方给V3.2的定位是“迈向新一代架构的中间步骤”。
2)由于DSA加持,V3.2 训推效率大幅提高 ,再次使得API输入/输出成本降低 50% /75%以上【推理成本】,【训练成本】这次没给。依然走降本增效。
3)虽然不像V3.1直接指出针对“下一代国产芯片设计”,但是寒武纪、昇腾DAY0都实现了对V3.2的支持,可见DS模型更新与国产算力绑定越来越深刻,不再是先出模型、再搞适配,而是 与国产算力更早期的有机整合 。
技术改变:大的模型迭代方向依然没变,DSA优化的还是Attention,总之就是想尽办法让长文本的「训推成本降低」,还「不太损失模型性能」。“精耕细作”是国产模型强项。
影响:也是显而易见的:
1)寒武纪、昇腾DAY0适配,国产算力将在国内模型训推中承担越来越重要的角色。另外,这次DS又引入了一种新的语言Tile,来简化高性能 GPU/CPU 内核的开发。虽然也同时开源了CUDA版本算子,但是「官方更建议使用Tile,而Tile是清华提出的,总之是一直在努力摆脱CUDA 」。
2)再次大幅降低推理成本,应用端终将受益将会受益。
知情人士透露,华为计划明年将其旗舰产品昇腾 910C 芯片的产量提升至约 60 万颗,较今年水平翻倍。
华为将在 2026 年把昇腾系列芯片的总产量提升至 160 万片晶圆
为在今年夏季已显著提升产能。过去一年间,包括上海微电子装备集团在内的中国企业频频传出在设备技术领域取得重大突破的消息。
华为明年将交付约 160 万片两种类型的芯片晶圆,而 2025 年这一数字预计将达到 100 万片。
1)华为:已上市的CloudMatrix384,未来规划的Atlas 950 SuperCluster 和 Atlas 960 SuperCluster
2)阿里:磐久128节点 ,由浪潮和华勤共同研发
3)腾讯:ETH- X,由华勤技术合作研发
4)字节:大鱼整机柜,整机柜及所用的AIC卡由超聚变合作研发。
关注ASIC产业趋势下公司核心变化
ASIC产业趋势确定,前瞻卡位公司稀缺,国产互联网需求高,空间大。产业链调研,当前自研芯片进展推进积极,供应链验证需求高增,订单加速。
1)ASIC赛道高景气
博通AI定制芯片需求强劲,公司此前表示三大客户,27财年带来600-900亿美元市场,不包含推理需求爆发+新客户贡献,实际预计26/27财年将超此前预期。
2)国产3DDRAM堆叠云端大算力新方案
3D DRAM是确定性技术路径,大带宽、低功耗、高灵活性,是国产算力的必经之路。国产厂商布局3D方案,替代HBM,应用于云端大算力领域,性能超预期,加速上量。芯原股份、翱捷科技、灿芯股份等。
风险提示:行业景气不及预期;新品渗透迭代不及预期。
*公开资料整理,仅作为行业分析参考,不构成任何投资建议!