国产AI推理大模型解析
发布者:乐晴
AI推理大模型是基于深度学习的人工智能模型,专门用于处理复杂的推理任务。
通常具有庞大的参数规模和复杂的计算结构,能够通过对海量数据的学习,捕捉数据中的复杂模式和关系,从而具备强大的推理能力。
国内已经推出多款推理模型,在逻辑推理、数学计算、自然语言处理等方面展现出强大的能力,部分代表产品包括:
发布时间:2024年12月31日(智谱GLM-Zero的初代版本“GLM-Zero-Preview”)
是智谱AI首个基于扩展强化学习技术训练的推理模型。
在数学推理方面能够处理复杂的数学问题和逻辑推理任务。在2025年考研数学真题的评测中,智谱GLM-Zero以三门数学平均138.70分的成绩排名第二,仅次于OpenAI的GPT-o1模型,是国产推理大模型的佼佼者。
发布时间:2024年11月28日
QwQ是阿里通义千问团队推出的开源AI推理模型,专注于数学与编程推理。具备强大的自然语言理解和生成能力,支持多种语言理解和生成任务,同时在逻辑推理方面表现出色。
QwQ模型拥有325亿参数,支持长达32000 tokens的输入提示词,为长文档理解及复杂任务处理提供了极大便利。
在2025年考研数学真题的评测中,阿里QwQ模型以三门数学平均137.0分的成绩排名第三。
发布时间:2025年1月20日
采用完全由强化学习驱动的“冷启动”训练方法,具备强大的数学、代码和自然语言推理能力。
DeepSeek-R1的训练过程结合了监督学习和强化学习的优势。在训练初期,模型通过少量的高质量冷启动数据进行监督微调,以改善模型输出的可读性和稳定性。随后模型进入强化学习阶段,通过大量的自我探索和尝试,不断提升其推理能力。这种训练方法使得DeepSeek-R1能够在没有大量标注数据的情况下,通过自我学习和优化,获得强大的推理能力。
该模型在多项评测中表现出色,完全开源和高性价比备受关注。
发布时间:2024年12月16日
Kimi-k1是由月之暗面推出的视觉思考模型。
不仅能够理解文字,还能看懂图片、理解视频,具备强大的跨模态推理能力,以其独特的长文本处理能力崭露头角。
思维链技术使Kimi-k1能够生成完整的推理过程,让用户不仅看到答案,还能看到模型是如何得出答案的。
该模型在短思维链和长思维链任务上均表现出色,在数学、代码以及视觉理解等方面具有强大的竞争力。
发布时间:2025年1月15日
国内首个基于全国产算力平台训练的具备深度思考和推理能力的大模型,解题过程更接近人类的“慢思考”方式,使用更少的算力。
在多项竞赛和考试中表现出色,尤其在教育和医疗等刚需场景中广泛应用。
发布时间:2025年1月6日
国内首款具备中文逻辑推理能力的o1模型,包含开源版本和专用版本。在中文逻辑和推理、数学等问题上表现突出,能够处理复杂的逻辑推理任务。
发布时间:2025年1月6日
Step R-mini推理模型核心在于轻量化设计与高效推理的结合。通过减少层数、压缩参数等方式,显著降低了模型的复杂度,提高推理速度。
-----
智谱AI部分合作厂商中,彩讯股份下一代智能邮箱产品Demo接入智谱ChatGLM等基础大模型;中科金财接入智谱ChatGLM等国内中文对话大模型和语言模型,在金融智能客服等合作;豆神教育与智谱华章和海南何尊签署《战略合作框架协议》,成立合资公司专注于AI教育产品。
创业黑马与智谱华章就生成式人工智能大模型在数字政务、企业服务等领域的应用与服务项目上进行深度合作;华策影视投资智谱华章并签署战略合作,联合开发影视内容生成智能体以及影视内容审查垂直模型,联合打造国内影视领域AI领头研究平台;凌云光将ChatGLM大模型和知识图谱和数字人业务等相结合;法本信息和智谱AI、阿里等业界主流大模型公司建立了生态合作。
阿里通义千问部分合作厂商中,博彦科技与阿里通义千问深入合作提供AI新技术落地的选择;彩讯股份与阿里通义千问合作,探索大语言模型的行业应用;软通动力是阿里通义千问的生态合作伙伴,已经基于某大型通讯设备企业大模型的人工智能框架,将自身的业务范围覆盖至AI算力资源到AI开发平台层的领域;亚康股份为阿里等互联网公司和云厂商提供算力设备产品及服务;数据港是国内少数同时服务于阿里、腾讯、百度的数据中心服务商;云赛智联与阿里云签署合作协议,成为“阿里云区域优选合作伙伴 MSP”;润建股份与阿里云签订战略合作协议,共同投资打造“中国-东盟智算云”及“数字经济创新中心”。
DeepSeek最新进展方面,硅基流动与华为云推出基于华为云昇腾云服务的DeepSeek R1&V3推理服务;阿里云支持云上一键部署DeepSeek-V3、DeepSeek-R1;DeepSeek-R1和DeepSeek-V3模型已在百度智能云千帆平台上架;腾讯云支持DeepSeek-R1大模型一键部署。
安凯微AK39系列对接DeepSeek等大模型;360数字安全集团安全大模型接入DeepSeek,将以DeepSeek为安全大模型基座;每日互动较早接入DeepSeek相关版本并完成各方面的评估及利用自有算力进行私有化部署;美格智能加速开发DeepSeek-R1模型在端侧落地应用及端云结合整体方案;安恒信息旗下恒脑·安全垂域大模型正式集成DeepSeek,完成基于DeepSeek R1的安全大模型的训练,推出首个“DeepSeek”版安全智能体。
*本文仅作为行业分析参考,不构成投资建议!