返回话题列表
乐晴行业观察
2025/02/23 11:14
类型 talk 25阅读 1

DeepSeek开源周 De...

发布者:乐晴

DeepSeek开源周

De...

从下周开始,每天发布一个,每个项目的代码都已经在当前生产环境使用和验证。

“我们是一个小小的团队,正在探索AGI通用人工智能。下周开始,我们将开源5个代码库,以完全透明的方式共享,我们虽小,但真诚地进展,这些在我们的在线服务中,使用的基础模块虽然简陋,但都经过了文档记录,部署和生产环境的实战考验。作为开源社会的一分子,我们相信每一行分享的代码都能汇聚成集体的力量,加速前进的步伐。没有象牙塔,只有车库创业精神和社区驱动的创新。”

以完全透明的方式与全球开发者社区分享DeepSeek在通用人工智能(AGI)领域的研究成果。

目前没有透露具体开源内容。

DeepSeek此前开源了推理模型DeepSeek-R1,

数据分析平台QuestMobile最新数据显示,从上线以来至2月9日,DeepSeek App的累计下载量超1.1亿次,周活跃用户规模最高近9700万。

可能的几个方向如下:

-可能性依据:DeepSeek此前通过混合专家架构(DeepSeekMoE)显著降低计算成本,仅在2000枚芯片上完成模型训练,且动态激活专家模块的设计已用于提升效率。

–预期内容:开源其MoE架构的底层代码,包括专家模块的动态调度算法、负载均衡策略及系统交互接口,可能附带生产环境部署案例。

开源的MoE架构底层代码将进一步推动AI模型的研发创新,加速对高性能计算资源的需求。浪潮信息、中科曙光等头部厂商引领国内AI算力服务器建设。例如,浪潮信息为DeepSeek北京智算中心提供英伟达H800服务器集群,并配备自研AIStation管理平台;中科曙光承建DeepSeek杭州训练中心的液冷系统,单机柜功率密度达35kW,PUE小于1.15。

AIDC厂商加速各地数据中心建设,据信通院数据,总体规模排名前十的IDC厂商包括万国数据、秦淮数据、润泽科技、世纪互联、数据港、普洛斯、中金数据、有孚、光环新网和浩云长盛。万国数据、秦淮数据、润泽科技、世纪互联、数据港等总体规模指数排名靠前的IDC厂商在集约发展指数和能力建设指数中的排名中也保持领先。

当虹科技BlackEye多模态视听大模型已完成与DeepSeek的深度融合;龙软科技已相继实现与DeepSeek-V2、DeepSeek-R1大模型的对接,并完成了在核心产品的接入;万兴科技已完成推理大模型DeepSeek-R1的适配,并落地于万兴喵影等产品,开源动态调度算法有助于优化多媒体处理软件;虹软科技等厂商也在算法有所布局。

开源的MoE架构底层代码将进一步推动NLP自然语言厂商拓尔思、科大讯飞等发展。

此外,DeepSeek的负载均衡策略和系统交互接口是模型架构中的关键组成部分,用于提高训练效率和计算资源的利用率,以及实现用户与模型之间的交互。主要布局包括阿里云、腾讯云等云计算厂商。

恒瑞医药计划在公司内部全面开展DeepSeek应用;易点天下已完成DeepSeek开源推理大模型DeepSeek-R1的私有化部署;三六零在DeepSeek基于MIT开源协议的生态环境下,旗下的部分产品进行DeepSeek的接入与本地化部署。

天融信天问大模型已正式完成DeepSeek大模型的接入,用于赋能安全事件检测分析等多个场景;盛天网络正在对接使用DeepSeek模型,并计划将其应用于公司社交产品带带和给麦;万达信息已完成DeepSeek开源版本在公司自有智算环境的本地化部署和算力集成,并计划将其应用于电子病历电子政务等行业场景;中国联通的联通云已率先与DeepSeek实现多场景深度对接,并上架了DeepSeek-R1系列模型;视觉中国已完成DeepSeek开源大模型DeepSeek-R1的接入与本地化部署,并在多个产品中深度应用其能力。

-可能性依据:1月份发布的Janus-Pro在图像生成领域表现不错,击败DALL-E3和StableDiffusion,但其开源版本尚未完整公开,就应用过的反馈而言,之前的版本稍落后于阿里Qwen-Vl及豆包的视觉模型。

-预期内容:更强的视觉图像生成模型,多模态理解与生成的视觉解耦工具链,集成文本-图像联合训练的轻量化框架,适配端侧设备(如具身智能)的轻量化推理优化模块。

例如,欢瑞世纪与阶跃星辰达成战略合作,接入其开源的视频生成模型Step-Video-T2V,用于影视内容生产中的视觉图像生成。虹软科技(移动智能终端视觉解决方案、科大讯飞、海康威视(视频监控产品)、思看科技(三维视觉数字化)等厂商在该领域都有所布局。

云从科技自研All-In-One Transformer多模态基础大模型框架,实现视觉-语言-语音的语义对齐;昆仑万维旗下天工大模型在逻辑推理、文本理解和多模态能力方面表现具有一定的优势;因赛集团基于各类第三方大型模型和自研营销领域专用的AIGC多模态模型,实现文本图片视频等多种形式的智能化内容生成。

(如具身智能)的轻量化推理优化模块:端侧算力芯片供应商瑞芯微、全志科技、恒玄科技、中科蓝讯、兆易创新等;人形机器人全产业链。

-可能性依据:DeepSeek的R1推理模型通过蒸馏技术实现小模型高性能,但未公布相关加速套件源码。

-预期内容:开源模型蒸馏的自动化工具包,包含数据生成策略、知识迁移算法及FP8混合精度训练代码,可能结合英伟达/HW/其它芯片的适配案例。

商汤科技模型优化技术包括蒸馏方法以提高边缘设备部署效率;HW近期推出了针对DeepSeek的DCSAI解决方案,核心是一体化的FusionCubeA3000训练与推理超融合设备;优刻得基于国产芯片(如壁仞科技的芯片)的先进内存架构、多模型适配能力、广泛的数据精度支持以及解码能力,全面开展包括R1在内的DeepSeek全系列模型适配工作;神州泰岳的子公司鼎富智能在模型蒸馏技术领域拥有多项专利;浪潮信息为DeepSeek北京亦庄智算中心提供支持,其服务器采用的英伟达H800具有第四代TensorCore和支持FP8精度的Transformer引擎,可加速大型语言模型训练。

-可能性依据:其在线服务模块已通过实战测试,且API服务定价极具竞争力,吸引微软、华为云等接入生态。

-预期内容:开源高并发API服务架构代码,涵盖负载均衡、动态扩缩容及安全防护模块,附带与主流云平台的集成文档。阿里云、HW云、腾讯云等云厂商负载均衡产品能够智能地分配流量,确保DeepSeekAPI服务在高并发情况下的稳定性和可用性。

-可能性依据:DeepSeek团队把自己定位为“探索AGI的微小团队”,强调车库创业精神,可能开放早期实验性技术。

-预期内容:如基于多头潜注意力(MLA)的新型网络结构、端到端自主学习的轻量级AGI原型,或社区协作式训练平台代码。

MLA(多头潜注意力)是DeepSeek提出的新型注意力机制,其核心在于通过压缩attention机制中的key和value,减少推理过程中所需的KV缓存,从而提升推理速度。与传统的多头注意力(MHA)架构相比,MLA架构在显存占用方面取得了显著的优化,能够将显存占用降低到MHA架构的5%-13%。

端到端自主学习的轻量级AGI原型环节,除DS外,例如阿里云推出的通义大模型在训练、推理、部署等方面提供了全方位的服务,也正在加速AGI探索和布局。

====

👉🏻阿里AI算力链解析: 👉🏻腾讯AI算力链解析: 👉🏻 AIDC简析: 👉🏻国产AI推理大模型简析 👉🏻 算力租赁简析: 👉🏻DeepSeek全链图谱:15细分领域+151家公司

*本文仅作为行业分析参考,不构成投资建议!