Deepseek UE8M0 ...
发布者:乐晴
事件:DeepSeek官方公众号今日(8月21日)发布文章,称DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度。UE8M0 FP8是针对即将发布的下一代国产芯片设计。
今日DeepSeek更新V3.1版本,市场对于官方号评论的“UE8M0 FP8是针对即将发布的下一代国产芯片设计”关注度较高,大家关心此数据类型对国产算力有何影响,我们认为对国产算力需求影响正面!
具体解答如下:
UE8M0 FP8格式,U代表无符号优化,E代表指数位数,M代表尾数位数。先前FP8的格式剔除掉符号位,一般的表示方式为E4M3或E5M2(即4位指数+3位位数,或5位指数+2位尾数)。
1)对存储需求的影响
我们认为不同的FP8格式实际上在存储单元的占用均为8 bit,实际上对内存单元以及内存带宽的需求并没有任何优化或者变化,因此部分公众号中解读的所谓利空HBM,降低存储需求的表述是明显错误的。只要为FP8的格式,那么读写都是8bit的存储单元占用。
2)对算力需求的影响
不同格式的FP8对算力需求有明显不同。由于在实际乘加运算过程中,要将指数位和位数位分开操作。多的尾数位会明显带浮点乘法流水线的支持,会带来更多的计算单元的消耗。尾数位越多,消耗的计算资源就越多(对应每个操作消耗的计算单元面积也就更大)。
我们认为,推出更灵活的数据格式UE8M0 FP8,是Deepseek通过更进一步的工程优化(类似采用FP8数据训练),针对国产AI芯片算力不足的问题做的优化(动态的去减少尾数可以使得更多的计算采用整数乘法器进行操作,可以较大程度的释放算力,在国产芯片设计端,未来在有限的制程下也可以塞入更多的整形计算单元来堆砌更多算力)。
在此趋势下,后续用国产卡训练大模型的可能性有望进一步增强。
我们从7月初开始左侧看好国产算力,发布了一系列报告并召开一系列电话会,8月以来市场已经表现出很强的认可度。我们认为在DS等流量模型更新,供应链逐步完善,互联网大厂CAPEX投入持续的催化下,下半年国产算力链有望维持较好表现。
1)芯片技术讨论
• 华为下一代芯片(可能命名为910x)将支持FP8精度,预计第四季度送测厂商。当前910B库存积压,主要用于推理而非训练。
• 寒武纪690、摩尔线程S5000等国产芯片已支持FP8,但华为生态软件适配更优。
• 国产GPU架构自主可控问题:计算公司公告称“力争解决”,实际未完全自主(采用Imagination IP)。
2)AI模型与部署
• DeepSeek V3.1更新:增加训练token数量、优化Agent支持、增强Function Calling(如Anthropic Code API接入)。
• FP8精度的意义:降低推理存储占用(100B模型从200G压缩至100G),提升吞吐量,但需与国产芯片(如华为、寒武纪)深度适配。
•国产芯片推理部署:华为昇腾910C不支持FP8,下一代芯片将支持;寒武纪受限于FP16,需转换精度。
3)行业动态与市场情绪
• 中兴通讯:中标移动集采,但AI卡依赖第三方(如壁仞),实际技术能力存疑。
• 半导体设备国产化:国产设备订单增长,政策要求新建晶圆厂提高国产设备比例。
• 摩尔线程:融资70亿,软件生态是优势,但技术门槛低(对比计算、汉博等竞品)。
4)观点
• 中兴通讯(组织优化)、中芯国际(14nm独家产能)、华为系(升腾下一代芯片)。
• 风险提示:东芯架构非自研,炒作需谨慎;华宏收购华利威为扩产,但市场反应负面。
• AI应用方向:DeepSeek开源可能利好办公(如金山)、编程、游戏领域,Agent生态将成变现重点。
5)其他要点
• 鸿蒙系统适配:9月30日前应用需适配鸿蒙,但实际效果待观察;小米汽车利润超预期,与华为差异化竞争。
• 国产替代趋势:下半年至明年,设备、材料、芯片全链条受益政策驱动(如算力采购补贴倾斜国产)。
(注:部分敏感信息已模糊处理)
1)什么是UE8M0 FP8?
- FP8:FP代表浮点数(小数),8代表数据用8bit(8位0、1)表示。计算机里的小数都是用科学计数法表示的,只不过与通常的科学计数法不同,不是10的次方,而是2的次方,例如3.14可以表示为1.57*2^1,0.618可以表示为1.236*2^(-1)。
- U:Unsigned,无符号,与有符号(Signed)相对应,也就是数字不带正负号,这种数据格式无法表示负数,但是可以用同样的数据长度表示更多正数。
- E:Exponent,指数,科学计数法的“次方”。
- M:Mantissa,尾数,科学计数法的“头”或“有效数字”。
- UE8M0:无符号(只能取0或正数),用8位数字表达指数,用0位数字表达尾数(此时尾数默认为1),也就是说这种数字格式只能表示2的n次方,从2的0次方到2的255次方。
- UE8M0与常规FP8的区别:常规FP8通常是“(S1)E5M2”或者“(S1)E4M3”,对数据的表示范围有所不同。
2)UE8M0 FP8,对算力有何影响?
- FP8:相比FP16可以节约一半算力/显存容量/通信带宽,相比FP32能节约3/4。数据长度的缩短,有利于提升计算速度,并且可以用更少的算力卡、更小的集群装下模型。沿着该思路,使用FP6、FP4更能节约算力、显存、带宽。
- UE8M0:可以把计算中占据大多数的乘法转化为更简单的加法。由于科学计数法的“头”全是1,所以数据只能是2的n次方。由于神经网络中,主要的运算是矩阵乘法,而2的n次方乘法,比通常的乘法简单很多,可以简化为加法,例如2^m * 2^n = 2^(m+n)。
- 加法相比乘法,快很多、简单很多。通常,加法器电路的面积比乘法器小很多,一次乘法运算消耗的时间是加法的数倍。
- 结论:UE8M0格式的乘法,比其他FP8快数倍,且明显节约芯片面积。
3)UE8M0 FP8,对模型有何影响?
- 在现有算力条件下,采用新数据格式可以大幅提升训练推理效率,加快模型迭代。
- 同样的显存容量下,可以增大等效KV Cache容量,增加上下文长度,对于模型的记忆能力、复杂项目分析能力大有助益。
- 同样的网络带宽下,可以增加网络效率、集群效率,降低模型公司成本,改善用户体验。
国产算力支撑国产模型,本次DeepSeek V3.1有望助推国产算力竞争力提升。我们重申看好看好【国产算力与国产模型合力支撑下的中国AI产业】
1)DeepSeek:在其官宣“正式发布DeepSeekV3.1”的文章里面提到,DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度,针对即将发布的下一代国产芯片设计;
2)华为CM384:DeepSeek-R1 在 CM384 上实现 1920 tokens / 秒的吞吐量,较 H100 集群提升 67%;
3)沐曦Shanghai Cube:采用沐曦曦云C550系列高性能GPGPU芯片,单机柜128卡液冷部署,成功实现了对 DeepSeek 671B满血版大模型的高效推理,以及其他主流大模型的训练、微调等支持;
4)关注国产算力产业链:
- 华为链:华丰科技、神州数码、拓维信息、软通动力、四川长虹等
- 沐曦链:亿都国际控股(0259 . HK)、超讯通信、立讯精密、优刻得等
- 海光链:海光信息、中科曙光、曙光数创等
- 寒武链:寒武纪、浪潮信息等
- 交换机:锐捷网络、盛科通信、共进股份、菲菱科思等
- 光:中际旭创、新易盛、长光华芯、长芯博创、天孚通信、源杰科技、华工科技、光迅科技等
- 硅光&CPO:致尚科技、太辰光、仕佳光子等
- PCB:胜宏科技、景旺电子、沪电股份、生益电子等
- 铜:兆龙互连、中际旭创、鸿腾精密等
1)DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度,为下一代国产芯片设计
根据Deepseek公众号文章以及官网评论区留言,DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度,而UE8M0 FP8是针对即将发布的下一代国产芯片设计。
2)国产AI芯片-国产开源模型-下游应用,国产AI生态全方面闭环,重申重视国产算力产业链:
-计算机双王:寒武纪、海光信息
-华为链:神州数码、华丰科技、软通动力、烽火通信、广电运通、拓维信息等
-阿里链:亚信科技等
华大九天:已实现模拟/面板/存储/射频全流程,设计平台加入AI赋能,射频设计基于GPU算力加速、新增OPC功能实现高端化;
25-26年加速补齐数电-布局布线、晶圆制造-TCAD等核心堵点。
概伦电子:已形成泛模拟类设计平台,高端存储产品受到广泛认可;制造类点工具主要客户包含全球前十大晶圆厂;噪声/参数测试形成软硬件协同。
广立微:围绕半导体电性测试形成软硬协同产品矩阵,软硬件收入比为3:7。
1)国内EDA并购整合加速
不同环节见间点工具所需专业知识差异大,从0开发或需5年;证监会并购新规下,国内EDA公司并购动作频繁,行业整合加速。
潜在并购:合见工软(数字验证+系统及设计)、行芯科技(Signoff工具链)、鸿芯微纳(数字后端工具)、思尔芯(数字EDA)、芯行纪(布局布线)、东方晶圆(OPC工具)等
2)国内大厂需求渐强
海光、长鑫、长存、韦尔、华虹等大厂替代需求提升;
消费级产品,包括小米玄戒/展锐等手机SOC,地平线/蔚小理等ADAS芯片,CSP大厂ASIC等具备潜力;
共研EDA+性价比需求提升,国产EDA份额将提升。
国产算力芯片核心赛道全梳理
*公开资料整理,仅作为行业分析参考,不构成任何投资建议!