250822--东吴电子 | ...
发布者:Vito的行研札记
·0528版本优化情况:0528版本主要提升推理与编码能力。因2025年上半年AI编程方向火爆,但早期该方向数据投入少,此前表现不领先,所以进行版本更新。 ·Kimi K2(V4)技术特征:Kimi K2(Deepseek V4)于6月中下旬发布。技术上,其架构与V3相似度至少80%,甚至超90%,可视为架构未变的升级版本。参数量上,K2较V3增加60%至1T。性能上,在V3已有数据可对比范围内,K2平均提升约7%(满分100分提升7分)。虽技术可定性为V4,但Devsec未主动命名,原因是预见到该方向技术天花板低,未主动更新。
·国内推理需求痛点:从3月到8月,国内大模型厂商在推理阶段经历了两个阶段的问题。第一阶段,厂商虽已具备自推理能力,但存在中间tokens消耗巨大、成本高的问题。第二阶段,千问、豆包、Kimi等公司在大语言模型上进行修正,推理模型可主动判断是否为简单问题,简单问题不推理,但此时模型表现较差,业内因此期待deep sick推理模型方向的更新。 ·V3.1针对性改进:针对业内对推理模型更新的期待,V3.1的更新方向主要有两个:一是降低中间tokens消耗,使输出更简洁;二是通过混合推理模型解决非推理阶段的准确性问题。具体改进措施上,3.1缩短了自推理过程,并在强化学习奖励上进行优化;同时,3.1成为国内混合模型的标杆。从背景看,当前国内可采购的合规高性能芯片(H100级以上)算力不足,制约了参数量增加等工作进展,因此3.1未加参数量,也未遵循Scaling Laws。在适配场景方面,公有云虽有豆包、k库、千问等模型,但传统行业私有化部署及企业为避免闭源模型绑定(如担心豆包涨价),更倾向使用开源模型的混合推理,因其API服务体验良好,满足企业普遍需求。此外,V3.1符合将大模型作为生产力工具、追求推理速度的技术风格,解决了外界企业的关键需求,迎合了2025年大模型发展需求。未来,考虑到V3.1已为混合模型,v和r版本号可能合并。
·国产芯片适配背景:国内算力卡暂时无法支持大模型参数进一步质的迭代提升。从技术动态看,DeepSeek在GitHub开源项目更新中,已进行较多升腾384集群适配工作。需明确,升腾384为NPU产品方案,910为算力设备,二者在适配和调用上有区别,印证了此前DeepSeek在升腾系列芯片上会有较好表现的传闻。针对市场误关联情况,需澄清:DeepSeek新版本发布慢与升腾芯片技术问题无直接关联。实际是,升腾系列芯片本身无大问题,但华为在升腾系列芯片(尤其是910C)售后存在严重问题,包括售前夸大良品率、交货周期等信息,售后联系困难且态度恶劣,导致2025年五六月多家公司计划砍掉910C订单。此后华为改善售后态度,开始上门服务并道歉,DeepSeek也在此列。 ·三家厂商适配难点:适配国产芯片涉及升腾、寒武纪、海光三家主流厂商,各厂商在适配新FP8时均存在设计不足,需与DeepSeek配合进行软件层面的适配。升腾采用达芬奇框架,计算模式为顺序性任务执行,原设计以国际主流算法模式为主,scaler更新为固定间隔(如每隔128次计算更新一次)。而新FP8要求每完成一个任务小节即进行动态scaler更新(无固定规律),因此需DeepSeek在需要缩放时给出信号(包括是否缩放、缩放阶段及幅度),升腾系列芯片接收到信号后主动触发硬件scaler计算适配。寒武纪采用chiplet技术,将浮点计算与指数部分分离(即n加2模式),但新FP8要求指数与计算部分一体以保证计算效率,因此寒武纪需新增一个8位的指数运算模块以修正这一设计。海光传输单元带宽较宽(支持64位甚至128位传输),主要适配FP32及更高精度、高频次的计算需求,而新FP8每次仅占8位,海光需调整传输单元以兼容小单元(8位)传输,同时确保小单元高密度传输不影响计算效率。若DeepSeek不提供信号,升腾910B或C的推理效率将大幅下降,因此DeepSeek自身也需进行适配。
·训练与推理表现:低精度或新型低精度对模型推理的支持需从训练阶段开始。训练时,与精度相关的计算成本较之前模式降30%-50%(单任务,非全模型),但因低精度训练需更多验证或计算弥补不足,成本降低幅度无法与精度缩小比例绝对对应。推理时,新FP8精度在高精度数学计算、编程及常规推理上精度损失<1%,可接受;推理运行时间根据不同任务至少提升20%,速度显著加快。 ·显存与场景适配优势:FP8精度在显存优化上有两方面表现:一是权重显存优化,原16位精度下600多B参数的文件大小为1.3T-1.5T,采用FP8精度后降至600多G,支持多专家分开执行,使单芯片显存要求降低(80G或100G显存可容纳单专家);二是KV Cache优化,以128K上下文为例,KV Cache空间可节约约50%(40G-50G降至20G-25G),支持单GPU容纳完整任务的KV Cache,适配多卡串联方案不足的场景(如沐曦)。总体而言,FP8精度降低了推理对芯片的门槛要求,提升了小参数模型(如200B或更小蒸馏版本)的可选性和适用性。
·大语言模型对标方向:国内大语言模型发展基本对标Anthropic的Claude,在模型能力提升、混合架构等方面与Claude发展路径趋同。与Grok存在明显差距:Grok聚焦高精尖行业的精准精细数据,认为科研行业是大模型应优先辅助的领域;持续推进Scaling Law,如Grok4参数量达2.5T(为K2的2.5倍),并构建英伟达H系列百万卡超级集群。国内在算力层面、Scaling Laws技术方向及大参数量投入上存在差距,当前国内公司投入大参数量的精力偏少,因此发展方向退而对标Claude。 ·多模态技术瓶颈与进展:多模态领域有三个前沿技术方向:一是统一多模态,如千万豆包等可实现统一多模态大模型,但在理解力、遵循度等方面表现不佳,尚未推出正式版本;二是端到端多模态推理解模型,如Gemini Pro 2.5;三是生成式多模态,如Google Veo系列,可生成含真实对白的高清超长视频(如Veo 2可生成两分钟4K高清视频,Veo 3为生成式多模态视频)。国内技术推进存在瓶颈:H20芯片人效低,无法支撑多模态场景的显存需求,本土团队推进困难。当前多模态进展主要依赖阿里、字节、腾讯等大公司的海外团队(利用美国本土算力和人员),国内团队2025年下半年多为例行更新,2025年末或可关注海外团队的研究成果(可能包含论文)。
·高频场景适配与需求刺激:V3.1在高频场景适配方面表现显著。以字节为例,其广告推荐、电商、审核及信息流等场景具有日均几百亿次的高频特性,且属于大输入小输出模式(输入为用户行为,输出为预测的广告或视频特征),对误差接受度较高。此类场景下,V3.1通过优化推理效率,可降低对H20芯片的依赖,提升国产芯片的使用比例。当前国内H20与国产卡处于混合使用状态,仅2025年2月因对Devsec架构不熟悉及2024年采购芯片未完成上架出现短暂短缺,3 4月通过PD分离方案(高频推理计算用H20或A100,批量decoder用寒武纪)后恢复稳定。在需求刺激方面,2025年四季度国内将集中交付约3000个ToB/ToG项目(如银行问答机器人等),这些项目多为C端用户刚需场景,存在明确推理需求。由于文生文方向国产卡(尤其是寒武纪)性价比已显著提升,叠加V3.1对推理成本的优化,多数企业将优先考虑采购国产卡,预计2026年国产卡采购需求将因此增长。 ·公有云市场与价格影响:V3.1通过技术优化推动公有云市场发展。其缩短了单任务推理过程中的中间思考tokens(平均缩短40%),降低了推理成本,同时提供混合架构及优化思考链,刺激中小企业因技术限制或成本顾虑而提升大模型使用渗透率。当前国内云服务商通过Devsec获得的公有云单日token消耗已超2万亿,随着V3.1上线,预计这一数值将进一步增长。价格层面,DeepSeek当前输出tokens价格为24元/百万,而火山引擎豆包PRO1.6模型价格略低。由于V3.1大幅降低了推理成本(如H20一机8卡并发量从16提升至24),火山引擎上线V3.1后,其搭载的DeepSeek 3.1价格预计将低于豆包PRO1.6。这一价格下行趋势将间接推动整个公有云模型价格下降,同时缩短的思维链降低了企业主实际使用成本,加速大模型在中小企业的落地进程。
A: Dubsack今年发布0324版本及0528版本;Kimi的k two于6月中下旬发布,其k库为Deepseek V4,架构与V3相似度达80%-90%,参数量较V3增加60%至1T。k two在V3原有数据上平均提升约7%,但参数量大幅增加后提升有限,反映Deepseek预见到技术天花板较低,因此未发布V4;Dubsack当时未主动更新技术风格。 A: 2024年3月至8月,厂商经历两个阶段:第一阶段具备自推理能力但中间tokens消耗大、成本高;第二阶段千问、豆包、Kimi等公司修正大语言模型,推理模型可主动判断简单问题并跳过推理,但非推理阶段表现差。因此业内期待DeepSeek更新推理模型,解决降低中间tokens消耗或提升非推理阶段准确性问题。 A: Deepseek 3.1版本改进包括:缩短自推理过程;作为混合模型成为国内标杆,满足传统行业私有化部署及企业对开源模型混合推理API服务的需求;因国内合规高性能芯片采购量少制约参数量增加,故未增加参数量及采用Scaling Laws;符合GPS技术风格,SP8设计符合该风格;强化工具调用、严格function call、编码能力等今年大模型发展的刚需功能;因未实现质级突破,故命名为3.1而非4.0。 A: 未来v和r两个版本号可能合并,因当前V3.1已为混合模型,无需分两个分支。 A: 适配国产FP8算力芯片的方向涉及技术适配与厂商协作。从技术动态看,Devsec在GitHub开源项目中已开展升腾384集群适配,验证了其在升腾系列芯片上的适配潜力。从厂商协作看,主流国产芯片在适配新FP8时存在设计不足,需针对性调整:升腾需通过接收Devsec动态缩放信号主动触发硬件scaler计算适配;寒武纪因chiplet技术将浮点计算与指数部分分离,需新增8位指数运算模块以适配新FP8的指数与计算一体化设计;海光因传输单元带宽较大,需调整传输单元兼容8位小单元并保证高密度传输效率。此外,Devsec需配合发送信号以避免升腾910B/C推理效率下降。需澄清的是,Devsec新版本发布慢与升腾技术问题无关,主要因华为售前承诺与售后响应问题,2024年五六月华为改善售后态度并上门服务后有所缓解。 A: 新型u-8 MO精度格式的实际好处体现在训练与推理两阶段,其中推理为核心优势场景。训练阶段,与精度计算相关的单任务成本较此前模式降低30%-50%。推理阶段,高精度数学计算、标程编程及常规推理的表现损失控制在1%以内,可接受性高;核心优势包括:权重与KV CACHE显存各节约约50%,降低芯片显存要求并提升可选性;推理运行时间较此前至少提升20%。 A: 分词器及chat template调整主要有两方面价值:一是标准化大模型需通过模板支持任务tokens数量的测算;二是调整会影响tokens切分及计算模式,使用户感知版本间分词原理与TOKEN划分规则的变化,并支持任务初步估算,整体属于对外交互层面。 A: 国内高性能芯片厂商原适配以英伟达技术方案为主的主流算法,默认FP8精度具有两个特点:有符号且包含三位小数位。模型中提及的新FP8结构为八位二进制表示2的幂次,通过M0位指示是否计算尾数位,其计算方式特点为无小数、仅整数计算。以寒武纪为代表的国内芯片厂商存在两方面不足:一是假设指数与小数计算需分开且包含小数,二是整数部分设计位数不足,需调整计算单元,但调整基于矩阵计算公式,成本不高。 A: 国内大模型发展需对照海外进展分析,美国在大模型领域整体领先。国内大语言模型发展主要对标Anthropic的Claude,在模型能力提升、混合架构等方面与Claude趋同,但尚未达到Grok水平。Grok聚焦高精尖行业精细数据,以辅助科研行业为优先方向,并持续推进scaling law。国内在算力、scaling laws技术方向及大参数量投入上存在较大差距,物力与软件技术均落后。下半年混合模型方面,Deepseek V3.1提供基础通用工具但缺乏完整方案,其混合模型非分离训练,参考Claude等业内技术理论。 A: 当前国内正等待Deep Sick相关文档发布,从技术表现推测其可能采用混合训练。国内在大语言模型方向的混合架构分离式训练至年末仍有发展空间,包括千万豆包在内的机构正持续推进该方向研发,目前无技术卡点,主要处于研究实验阶段。 A: 多模态的三个前沿技术包括:一是统一多模态综合表现;二是端到端多模态推理解模型;三是生成式多模态。受限于国内仅能使用H20级别芯片,该领域技术推进困难,主要由腾讯、阿里、字节等公司的海外团队依托美国算力与人才资源开展研发。 A: 应用需分两类评估:Gemini Pro 2.5等推理解模型因算力消耗较低,国内当前可小范围使用;VIVO2、VIVO3级别生成模型因国内缺乏生成式高级芯片无法运行,这也是可灵选择出海、国内业务比例偏低的直接原因。 A: 当前国内无定位于高端推理芯片的产品。以文生视频为例,2K级别原生剧情生成至少需H100,H20因收费导致性价比低,4090无法直接用于推理,仅能在H100完成基本推理后辅助视觉生成渲染以节约算力。国内H100在商用推理环节已不足,若进行Vivo Two/Vivo Three级别的AIGC视频生成则不可行。多模态生成方向目前除自媒体外商业化场景较少,大公司因此聚焦多模态理解。国产芯片方面,升腾384集群算力可对标H100规模集群,但属重型方案,抖音、快手等应用部署不便,暂适合国内To B/To G项目。 A: V3.1产品在现有模型上的应用方向主要分为两类:一是文生文助手、Agent写方案等场景,此类市场规模较小,新FP8精度可提升推理效率并降低成本,但实际影响有限;二是字节、快手等公司的高频场景,此类场景为大输入小输出模式,可接受误差,结合新FP8优化方案后,国产芯片可承担更多任务,显著降低对英伟达H20的依赖。对国产算力芯片的影响方面,V3.1推出后,字节、腾讯等依赖广告推荐的公司将减少对H20的采购需求;百度、阿里、智谱等承接ToB/ToG项目的公司算力压力也将减小。此外,文生文方向已进入节约2.0时代,通过KV cache技术,木犀、海光等国产芯片可实现200B模型单卡存储3个TV的突破。但V3.1带来的低推理成本对国产芯片未来市场的具体影响尚不明确,类似低能耗空调的市场反应需进一步观察。 A: V3.1优化将推动云服务厂商在广告、推荐等场景的需求增长。腾讯、字节等企业已于6月底规划在广告推荐、广告素材生成等场景加大大模型使用比例,其中字节在7月31日全员会明确电商、广告、审核及信息流将大幅接入大模型。V3.1的推理效率优化可帮助火山引擎、阿里云等吸引受技术限制的中小型短视频服务公司及百人级企业增加大模型使用。字节计划于明年一季度发布相关云服务方案。当前国内云服务商Devsec相关公有云单日token消耗超2万亿,V3.1进一步提升中小企业大模型渗透率,将推动公有云token使用量有效增长。 A: V3.1模型对推理性能有较明显优化,主要优化方向为文生文场景。需求端影响体现在三方面:一是优化后可刺激企业级产品对大模型调用需求的增长;二是ToB与ToG业务今年将陆续增长,带动明年国产算力卡采购;三是结合火山引擎、阿里云等云服务商基于V3.1的优化方案,可吸引更多中小型企业及百人级公司使用大模型,提升中小企业大模型渗透率,推动公有云单日token消耗进一步增长。 A: DeepSeek V3.1模型发布将间接推动公有云模型价格下降。以火山引擎为例,其当前豆包PRO1.6模型推理价格略低于无优惠的DeepSeek模型。由于DeepSeek官方已明确V3.1模型成本显著降低且思考tokens数量缩小,火山引擎上架的DeepSeek V3.1模型价格将低于豆包大模型价格。同时,V3.1模型通过缩短思维链降低了企业主使用成本,叠加公有云模型价格下降趋势,将加速国内中小企业大模型落地进程。