DeepSeek开源周 De...

发布者：乐晴

从下周开始，每天发布一个，每个项目的代码都已经在当前生产环境使用和验证。

“我们是一个小小的团队，正在探索AGI通用人工智能。下周开始，我们将开源5个代码库，以完全透明的方式共享，我们虽小，但真诚地进展，这些在我们的在线服务中，使用的基础模块虽然简陋，但都经过了文档记录，部署和生产环境的实战考验。作为开源社会的一分子，我们相信每一行分享的代码都能汇聚成集体的力量，加速前进的步伐。没有象牙塔，只有车库创业精神和社区驱动的创新。”

以完全透明的方式与全球开发者社区分享DeepSeek在通用人工智能（AGI）领域的研究成果。

目前没有透露具体开源内容。

DeepSeek此前开源了推理模型DeepSeek-R1，

数据分析平台QuestMobile最新数据显示，从上线以来至2月9日，DeepSeek App的累计下载量超1.1亿次，周活跃用户规模最高近9700万。

可能的几个方向如下：

-可能性依据：DeepSeek此前通过混合专家架构（DeepSeekMoE）显著降低计算成本，仅在2000枚芯片上完成模型训练，且动态激活专家模块的设计已用于提升效率。

–预期内容：开源其MoE架构的底层代码，包括专家模块的动态调度算法、负载均衡策略及系统交互接口，可能附带生产环境部署案例。

开源的MoE架构底层代码将进一步推动AI模型的研发创新，加速对高性能计算资源的需求。浪潮信息、中科曙光等头部厂商引领国内AI算力服务器建设。例如，浪潮信息为DeepSeek北京智算中心提供英伟达H800服务器集群，并配备自研AIStation管理平台；中科曙光承建DeepSeek杭州训练中心的液冷系统，单机柜功率密度达35kW，PUE小于1.15。

AIDC厂商加速各地数据中心建设，据信通院数据，总体规模排名前十的IDC厂商包括万国数据、秦淮数据、润泽科技、世纪互联、数据港、普洛斯、中金数据、有孚、光环新网和浩云长盛。万国数据、秦淮数据、润泽科技、世纪互联、数据港等总体规模指数排名靠前的IDC厂商在集约发展指数和能力建设指数中的排名中也保持领先。

当虹科技BlackEye多模态视听大模型已完成与DeepSeek的深度融合；龙软科技已相继实现与DeepSeek-V2、DeepSeek-R1大模型的对接，并完成了在核心产品的接入；万兴科技已完成推理大模型DeepSeek-R1的适配，并落地于万兴喵影等产品，开源动态调度算法有助于优化多媒体处理软件；虹软科技等厂商也在算法有所布局。

开源的MoE架构底层代码将进一步推动NLP自然语言厂商拓尔思、科大讯飞等发展。

此外，DeepSeek的负载均衡策略和系统交互接口是模型架构中的关键组成部分，用于提高训练效率和计算资源的利用率，以及实现用户与模型之间的交互。主要布局包括阿里云、腾讯云等云计算厂商。

恒瑞医药计划在公司内部全面开展DeepSeek应用；易点天下已完成DeepSeek开源推理大模型DeepSeek-R1的私有化部署；三六零在DeepSeek基于MIT开源协议的生态环境下，旗下的部分产品进行DeepSeek的接入与本地化部署。

天融信天问大模型已正式完成DeepSeek大模型的接入，用于赋能安全事件检测分析等多个场景；盛天网络正在对接使用DeepSeek模型，并计划将其应用于公司社交产品带带和给麦；万达信息已完成DeepSeek开源版本在公司自有智算环境的本地化部署和算力集成，并计划将其应用于电子病历电子政务等行业场景；中国联通的联通云已率先与DeepSeek实现多场景深度对接，并上架了DeepSeek-R1系列模型；视觉中国已完成DeepSeek开源大模型DeepSeek-R1的接入与本地化部署，并在多个产品中深度应用其能力。

-可能性依据：1月份发布的Janus-Pro在图像生成领域表现不错，击败DALL-E3和StableDiffusion，但其开源版本尚未完整公开，就应用过的反馈而言，之前的版本稍落后于阿里Qwen-Vl及豆包的视觉模型。

-预期内容：更强的视觉图像生成模型，多模态理解与生成的视觉解耦工具链，集成文本-图像联合训练的轻量化框架，适配端侧设备（如具身智能）的轻量化推理优化模块。

例如，欢瑞世纪与阶跃星辰达成战略合作，接入其开源的视频生成模型Step-Video-T2V，用于影视内容生产中的视觉图像生成。虹软科技（移动智能终端视觉解决方案、科大讯飞、海康威视（视频监控产品）、思看科技（三维视觉数字化）等厂商在该领域都有所布局。

云从科技自研All-In-One Transformer多模态基础大模型框架，实现视觉-语言-语音的语义对齐；昆仑万维旗下天工大模型在逻辑推理、文本理解和多模态能力方面表现具有一定的优势；因赛集团基于各类第三方大型模型和自研营销领域专用的AIGC多模态模型，实现文本图片视频等多种形式的智能化内容生成。

（如具身智能）的轻量化推理优化模块：端侧算力芯片供应商瑞芯微、全志科技、恒玄科技、中科蓝讯、兆易创新等；人形机器人全产业链。

-可能性依据：DeepSeek的R1推理模型通过蒸馏技术实现小模型高性能，但未公布相关加速套件源码。

-预期内容：开源模型蒸馏的自动化工具包，包含数据生成策略、知识迁移算法及FP8混合精度训练代码，可能结合英伟达/HW/其它芯片的适配案例。

商汤科技模型优化技术包括蒸馏方法以提高边缘设备部署效率；HW近期推出了针对DeepSeek的DCSAI解决方案，核心是一体化的FusionCubeA3000训练与推理超融合设备；优刻得基于国产芯片（如壁仞科技的芯片）的先进内存架构、多模型适配能力、广泛的数据精度支持以及解码能力，全面开展包括R1在内的DeepSeek全系列模型适配工作；神州泰岳的子公司鼎富智能在模型蒸馏技术领域拥有多项专利；浪潮信息为DeepSeek北京亦庄智算中心提供支持，其服务器采用的英伟达H800具有第四代TensorCore和支持FP8精度的Transformer引擎，可加速大型语言模型训练。

-可能性依据：其在线服务模块已通过实战测试，且API服务定价极具竞争力，吸引微软、华为云等接入生态。

-预期内容：开源高并发API服务架构代码，涵盖负载均衡、动态扩缩容及安全防护模块，附带与主流云平台的集成文档。阿里云、HW云、腾讯云等云厂商负载均衡产品能够智能地分配流量，确保DeepSeekAPI服务在高并发情况下的稳定性和可用性。

-可能性依据：DeepSeek团队把自己定位为“探索AGI的微小团队”，强调车库创业精神，可能开放早期实验性技术。

-预期内容：如基于多头潜注意力（MLA）的新型网络结构、端到端自主学习的轻量级AGI原型，或社区协作式训练平台代码。

MLA（多头潜注意力）是DeepSeek提出的新型注意力机制，其核心在于通过压缩attention机制中的key和value，减少推理过程中所需的KV缓存，从而提升推理速度。与传统的多头注意力（MHA）架构相比，MLA架构在显存占用方面取得了显著的优化，能够将显存占用降低到MHA架构的5%-13%。

端到端自主学习的轻量级AGI原型环节，除DS外，例如阿里云推出的通义大模型在训练、推理、部署等方面提供了全方位的服务，也正在加速AGI探索和布局。

====

👉🏻阿里AI算力链解析： 👉🏻腾讯AI算力链解析： 👉🏻 AIDC简析: 👉🏻国产AI推理大模型简析 👉🏻 算力租赁简析: 👉🏻DeepSeek全链图谱：15细分领域+151家公司

*本文仅作为行业分析参考，不构成投资建议！