小米AI链GPU万卡集群简析
发布者:乐晴
12.26 据报道,小米正在着手搭建自己的GPU万卡集群,将对AI大模型大力投入。
12.20 据报道,DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉将加入小米,有望加入小米AI实验室领导大模型团队。
11.12 小米官方宣布大模型已经实现了从一代到二代(MiLM2)的升级迭代。此前在5月,小米大语言模型MiLM正式通过大模型备案。
2023年,小米成立了大模型团队,并将“轻量化、本地部署”定为小米大模型技术的主力突破方向。
2016年7月:小米AI视觉团队成立,标志着小米正式进军AI领域。自2016年组建AI团队以来,小米人工智能团队经过7年6次扩展,相关领域人员规模已达3000多人,在AI产品上的布局涵盖从智能手机、AIoT、自动驾驶、智能制造到机器人等多个业务领域。
小米是国内终端侧布局最领先公司之一,手机、汽车、小米智家是AI最好的三大天然载体。
小米近年来持续加大在AI领域的投入,特别是在AI大模型的研发上。小米的研发投入主要方向为AI、OS(操作系统)和芯片三大底层技术。 ------------
小米万卡集群是小米为支持其AI大模型研发而着手搭建的高性能计算系统,由1万张及以上的加速卡(如GPU、TPU或其他专用AI加速芯片)组成,用以训练基础大模型。
通过集成GPU算力、高速网络和大容量存储,万卡集群能够提供巨大的计算能力,大大缩短了模型训练的时间。
例如,训练类似OpenAI的GPT-4这样的大型模型,万卡集群能够将几个月的训练时间缩短至几周,甚至更短。
万卡GPU集群的产业链包括芯片设计、服务器建设、数据中心运维、通信设备、软件开发等多个环节,主要包括芯片厂商(如英伟达、AMD)、硬件制造商(如浪潮信息、华为)、云计算服务提供商(如阿里云、腾讯云、金山云)等。
国内电信运营商、头部互联网字节、阿里、百度、大型AI研发企业科大讯飞等均加速构建万卡集群。
中国移支计划今年商用哈尔滨、呼和浩特、贵阳三个万卡集群,总规模接近6万张GPU卡。 字节跳动已经搭建起了超过一万张Ampere架构GPU(如A100、A800)的集群,并且正在建设大规模Hopper架构集群(如H100、H800)。
为了提升万卡集群的效率和稳定性,字节跳动提出并实施了名为MegaScale的生产系统。MegaScale在12288个GPU上训练1750亿参数大语言模型时,实现了55.2%的算力利用率(MFU),是英伟达Megatron-LM的1.34倍。
科大讯飞万卡集群名为“飞星一号”,是全国首个支持大模型训练的超万卡集群算力平台。该集群拥有超过一万张高性能计算卡(如GPU),为AI模型的训练和推理提供了强大的算力支持。
-金山云与小米集团深度合作,除了在AI基础设施建设,还为小米提供算力支持;小米集团是金山云的重要股东之一。
-亚康股份为腾讯、百度、字节、金山云等互联网企业提供算力服务;
-中际旭创为小米提供光模块等算力相关产品;
-小米通过旗下的湖北小米长江产业基金对芯原股份进行了战略性投资,成为其第四大股东。
-芯原股份是国内半导体IP龙头,其NPU IP已被 72家客户用于上述市场领域的128款AI芯片中。作为一站式芯片定制服务和半导体IP授权服务,为小米AI产业链提供芯片支持。
-大位科技旗下的公司森华易腾,已为400多家互联网公司提供IDC、云计算等领域的服务,客户中包括小米科技、金山云等。
-汇绿生态拟收购的钧恒科技与Finisar、新华三等客户深度合作,此外还和商汤科技、金山云等AI和云计算厂商企业建立合作关系。
小米AI链相关厂商还包括美利云、立昴技术、利通电子、易华录、湖北广电等。
附:1篇万卡集群相关报告,供学习参考!(星球网页端可以下载阅读)
*本文仅作为行业分析参考,不构成投资建议!