**MiniMaxM3模型发布...
发布者:麦子
**MiniMaxM3模型发布,长程任务能力显著提高(0601)**
MiniMaxM3模型发布,长程任务能力显著提高(0601)@ 性能:和GPT-5.5和Gemini3.1Pro互有来回,接近Opus4.7。原生多模态模型(从Step0开始进行多模态混合训练),支持图片和视频的输入,并能操作电脑桌面。是国内第一个齐备这些要素的模型,也是目前唯一的开源模型。 技术:再再再证明,Attention是国内模型的优化重点,M3采用的就是前几天放出来的全新注意力架构MSA(MiniMaxSparseAttention),1M超长上下文。在100万上下文下,M3每token计算量仅为上代模型的1/20。在prefilling阶段,实现了超过9倍的加速倍率,在decoding阶段有超过15倍的加速优势。数据上,文本和图像或其他模态在序列中交替自然排列,对训练模型有性能提升,训练数据token已达到100万亿量级。 LongHorizon:长程任务是目前衡量模型性能的金指标。1)M3自主运行了接近12小时,复现了一篇paper的结果,全程自主产出18次commit与23张实验图表,并跑通了核心实验。2)M3约24小时的连续执行,实现资深团队1–2周的集中投入进行的H卡FP8矩阵乘(GEMM)kernel,共完成147次benchmark提交、1959次工具调用。3)M3能够指导训练更小的模型。 定价:没有卷价格!M3短文本(≤512k)原价是M2.7的2x,目前5折优惠;长文本相比于M2.7提升为4x价格。 From华泰计算机郭雅丽/范昳蕊/袁泽世/岳铂雄/王浩天/徐诚伟