**MiniMaxM3模型发布...

发布者：麦子

**MiniMaxM3模型发布，长程任务能力显著提高（0601）**

MiniMaxM3模型发布，长程任务能力显著提高（0601）@ 性能：和GPT-5.5和Gemini3.1Pro互有来回，接近Opus4.7。原生多模态模型（从Step0开始进行多模态混合训练），支持图片和视频的输入，并能操作电脑桌面。是国内第一个齐备这些要素的模型，也是目前唯一的开源模型。技术：再再再证明，Attention是国内模型的优化重点，M3采用的就是前几天放出来的全新注意力架构MSA（MiniMaxSparseAttention），1M超长上下文。在100万上下文下，M3每token计算量仅为上代模型的1/20。在prefilling阶段，实现了超过9倍的加速倍率，在decoding阶段有超过15倍的加速优势。数据上，文本和图像或其他模态在序列中交替自然排列，对训练模型有性能提升，训练数据token已达到100万亿量级。 LongHorizon：长程任务是目前衡量模型性能的金指标。1）M3自主运行了接近12小时，复现了一篇paper的结果，全程自主产出18次commit与23张实验图表，并跑通了核心实验。2）M3约24小时的连续执行，实现资深团队1–2周的集中投入进行的H卡FP8矩阵乘（GEMM）kernel，共完成147次benchmark提交、1959次工具调用。3）M3能够指导训练更小的模型。定价：没有卷价格！M3短文本（≤512k）原价是M2.7的2x，目前5折优惠；长文本相比于M2.7提升为4x价格。 From华泰计算机郭雅丽/范昳蕊/袁泽世/岳铂雄/王浩天/徐诚伟