MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受
7315点击    2026-06-02 11:58

前沿的 Coding 能力、1M 的上下文窗口,还有原生的多模态


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


就在今天,MiniMax 发布了新一代模型 M3


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


这次最值得看的地方,是 M3 终于在同一个模型里凑齐了三种能力:


前沿的 Coding 能力、1M 的上下文窗口,还有原生的多模态。


同一时间,MiniMax 还更新了配套的 Agent 产品 MiniMax Code,并放出了 M3 的技术博客。


🚥 


我们第一时间看完了技术博客,也分别上手实测了 M3 和 MiniMax Code。


接下来,分享对这份技术博客的内容整理和两个实测案例。


先看这份技术博客


读完之后,一个比较直接的感受是:


M3 真正的看点,是一个国产模型同时具备了多种前沿能力。


从相关 Benchmark,比如 Terminal Bench 来看,M3 的表现已经稳定排在 Sonnet 4.6 这一档,部分编程和 Agent 任务上还要更靠前一些。但和 Opus 4.7、GPT-5.5 放在一起比,能看出还有一段差距。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


整体来说,这份技术博客给出的是 MiniMax M3 的一份扎实的成绩单,但还算不上是终点。


下面分三块来看。


1M 上下文背后的 MSA


M3 这次支持 1M 上下文,背后换掉的是模型最底层的注意力模块,MiniMax 把它叫做 MSA(MiniMax Sparse Attention)。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


传统的全注意力机制里,每个 token 都要和前面所有 token 做一次关联计算。序列一旦变长,计算量就会以平方级别增长,很快超出硬件能够承受的范围。这也是长上下文长期难以实现的根本原因。


稀疏注意力的思路,是在正式计算前先做一道初筛,只保留真正相关的部分参与运算,从而避开平方级的复杂度爆炸。


这条路线并不新鲜:DeepSeek 在 V3.2 上采用的 DSA、月之暗面在 Kimi 上采用的 MoBA,都属于稀疏注意力,MSA 对标的也正是这一类方案。


MSA 这次比较独特的思路,集中在 2 个地方。


一是对 KV 的分块更精细,相同算力下能覆盖到的有效上下文更多;二是在算子层直接做了优化,让每一块数据只读一次、访存连续,按官方给的数据,比开源的 Flash-Sparse-Attention、flash-moba 要快 4 倍以上。


这些工程细节带来的结果还算是比较明显的:


在 100 万上下文长度下,M3 每个 token 的计算量只有上一代的 1/20,prefilling 阶段加速超过 9 倍,decoding 阶段超过 15 倍。


而在多组对照实验里,MSA 的大部分能力都与全注意力基本持平。


换句话说,长上下文不再是一个理论上可行、实际却用不起的功能。


因此,1M 现在可以理解为「更像是一项基础设施」。后面所有的长程 Agent、长程 Coding、长视频理解,都要建立在其基础之上。


Coding 提升很多


Coding 和 Agent 是 M3 这次重点提升的方向。


技术博客里有一组评测数字:SWE-Bench Pro 上 59.0%,Terminal Bench 2.1 上 66.0%,MCP Atlas 上 74.2%,还有 SWE-fficiency、KernelBench Hard 等几项。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


不过,比分数更有意思的是它怎么训练的。


MiniMax 在博客里明确提出了一个现在很多代码 Agent 的共性问题:训练和评测大多建立在「单轮任务」的假设上,给一个需求,生成一段代码,结束 Over。


可真实的开发与这套流程还是相当大的区别的。


我们进行开发的时候,往往是在同一个 Session 里反复来回:先说个大概,再补充需求,中途改下方案,根据中间结果再派新的任务。


为了让模型在训练阶段就见到这种场景,MiniMax 做了一个交互式的用户模拟器,去模拟开发者澄清需求、讨论方案、修正反馈、连续切换任务的过程。


整体来看,这一点其实很复杂下一代 Coding Agent 的思路:比起单纯地写代码,长期协作、规划,以及人和 Agent 配合的效率的需求,可能才是更重要的。


这个判断,从过往的社区评价来看,大家是基本认同的,一个能力强、但不会跟你来回对齐的模型,用起来真的会很累。


原生多模态


从技术博客来看,M3 是从训练的第 0 步开始就做多模态混合训练的,这种做法的好处,是文本和图像的语义空间能更自然地对齐。


博客里还提到了一个细节:他们发现 Interleaved data(图文交错排列的数据)对模型能力的帮助,比一般认为的更关键。为了把这类数据的规模提升上去,MiniMax 重做了整套数据管线,把预训练数据的整体规模扩大到 100T 量级。


以上三种能力,共同构成了这次 MiniMax M3 模型的基础。


技术博客里同步给到了几个内部案例,其中两个比较典型,值得说一下。


一个是论文复现


他们把一篇 ICLR 2025 的获奖论文交给 M3,让它独立复现。M3 自主运行了接近 12 小时,中间产出了 18 次 commit 和 23 张实验图表,完整复现了核心实验。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


这个过程里,看懂论文里的曲线和公式需要多模态,论文加代码加实验日志能一次性进窗口要长上下文,而把整条流程连续做完要靠 Coding 和 Agent 的能力。三种能力的集合,才能让这个任务顺利完成。


另一个是 CUDA 算子优化


任务是在 NVIDIA Hopper 架构上优化一个 FP8 矩阵乘的 kernel,这种任务,对于有一定工程经验的团队通常要花一到两周时间。


而 MiniMax 团队给 M3 的起点只有一份任务描述、一个评估脚本和一段骨架代码,没有任何现成的高性能实现可以参考。


在大约 24 小时里,M3 提交了 147 次 benchmark、调用了 1959 次工具,把硬件峰值利用率从首版的 7.6% 提升到 71.3%。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


它的执行过程也很有意思,博客里提到,除了 Opus 4.7 和 M3,其余模型大多在前 30 次提交里就停住、主动退出了,而 M3 的最优解出现在第 145 次提交,在那之前它经历了好几个分数不再上涨的平台期,但还在换方向继续尝试。


这种「卡住了也不轻易放弃」的耐心,算是 M3 此次的表现亮点。


我们的实测:M3


我们也做了一番实测。目前 M3 模型已经可以在 MiniMax 开放平台的 API 里调用。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


平时我一般用 CC Switch 来给 Claude Code 或 Codex 设置模型,比较方便,现在也能直接找到 M3 了。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


经过多次实测后,我们发现它在长程任务上表现还不错,尤其是复刻类任务。比如先复刻一个网页的整体风格,再在此基础上给它一段很长的内容,让它做成展示页面,最终在前端的美感上,相比之前的模型有一定提升。


比如,因为它是原生多模态模型,我给了它几张图片,让它帮我做一个 MiniMax M3 MSA 的内容索引互动网页。


这次 MiniMax M3 有一个比较明显的特点,就是具备了原生多模态能力。它可以直接理解图片里的内容,而且识别速度很快。对于图片中的元素、数据和结构信息,都能快速完成分析和定位,同时结合上下文理解它们之间的关系。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


现在的 M3 在执行任务时,会有一个完整的工作流。它会自主地进行验证,检查自己的输出。会和用户的提示对齐。比如,当提示不完整时,它会先进行脑力风暴,补充和完善思路,然后再执行。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


即便完成了第一轮术语识别,仍然可能会有一些遗漏。它会先把整体框架搭建出来,然后再重新梳理一遍图片里的所有可点击关键词,检查是否有遗漏或分类不合理的地方,最后再统一完成整体设计。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


整个工作流衔接非常完整。通过多步验证,它会不断与我的提示词对齐。每一步都会检查前一步的结果。生成多个页面或配置时,会并行调用多个子 Agent 执行。整个流程下来,几乎不需要人工干预。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


这个网站的内容就是先截一张 MSA 的截图。然后结合 Claude Code Harness 里已有的 skill 去处理。它识别图片里的每一个点,把每个点做成可互动、可点击的块。点开块,就能看到对应的术语。每个术语里有详细解释,这需要 M3 的长上下文和调研能力,也需要前端的多模态能力。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


最后做出来的效果是,整张图片里的内容都会被自动识别,并圈选成可交互的模块。点击任意模块,都可以直接进入对应的下一层页面。


能看出来它做的比较细。每一个词和标签框都被标了出来。比如右上角这一部分,它不会把里边每个字单独拆开,而是会把它们识别成同一个专业术语或同一个概念,然后作为一个整体进行框选。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


而且它不只是按照视觉上能看到的内容去划分。比如一个蓝色方框里的内容,在人眼看来可能就是一个模块,但它还会进一步理解里面具体写了什么。


像有些区域,它会识别出这是一个注意力机制相关的公式;有些区域,则会识别出是 MSA 这类专业术语。也就是说,它不只是看版式和颜色,而是在结合内容本身做进一步分析。


当然,如果只靠模型自身的视觉能力,效果还是有限。实际过程中更重要的还是 Harness 和 Skill 的配合。它们可以帮助模型进行多轮识别、反复校验和补充判断,让最终识别出来的结构更完整,也更准确。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


最后做出来的效果是你点击任意一个专业术语,都会跳转到统一的术语目录库里。


整个目录库本质上是一个知识地图。里面的每个模块都由专业术语、关键词,以及对应的解释和调研注释组成。


这样不管是从图片里的哪个位置点进去,最后都会汇总到同一套知识体系里。既能按视觉区域浏览,也能按术语和概念进行检索。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


然后在这套术语库里面,还集成了一个专门的术语目录。甚至相关的公式也会直接列出来:


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


这个目录支持多层级点选。每点开一个目录节点,下面还会继续展开对应的子分类和关联内容。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


M3 也可以处理一些更立体的任务,这里其实可以和 Opus 4.7 对比一下。


比如用 Three.js 创建一个 3D 脱硫滑橇工艺流程图。里面包括水平和垂直的圆柱形容器、彩色管道网络、阀门、仪表、摄像机控制,以及设备标签和参数标注。


下面这个是 Opus 4.7 第一次做的:


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


整体是比较完整的,右上角还有一个滑动模块,可以实时控制画面的物理效果。


下面这个案例的效果是 M3 做的,整体的 3D 感还不错,可以通过几个关键模块,实时切换不同画面。切换过程中,整个数字孪生的效果比较完整。如果仔细看的话,会发现里面的大量容器是有光泽效果的:


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


和 M3 一起更新的 MiniMax Code


跟着 M3 一起更新的,还有 MiniMax Code。


它对标的是 Claude Code、Codex 这一类的 Agent 产品,思路上的关键差别在于:它是专门为 M3 设计、并且和 M3 一起训练出来的。


模型和配套的 Agent 一起训练,理论上能更好地发挥 M3 在长上下文、Coding 和原生多模态上的能力。


它最核心的一个能力叫做: Agent Team


简单说,遇到一个大任务,它会先拆成多个阶段、可以并发、还能动态调整的 Workflow,再交给一组 Agent 协作推进。中间用 Producer 加 Verifier 的循环,一边产出一边自我检查、修正,必要时可以连续自主跑上好几天。


这里可以拉一个对照。


Claude Code 近期也发布了方向类似的 Dynamic Workflows。两者的侧重不太一样:Claude Code 更强调用 JS 代码做固定式的编排,MiniMax Code 更强调执行过程里的持续反思和纠错,会根据任务进展实时调方案、调优先级,用户也能随时插进来加需求或改方向。


哪种更好,现在下结论还太早,要看各自在真实项目里实际运行下来的稳定性。


另外,得益于 M3 的原生多模态,MiniMax Code 还自带了 Computer Use 的能力


还有一点值得提一下:MiniMax Code 的 Harness 是基于 OpenCode 和 Pi Agent 这两个开源项目搭建的,官方也说了后续打算把这个项目开源。这和 M3 本身开源的态度是一致的。


同样,我们也用一个案例实测了一下。


我们的实测:MiniMax Code


按照官方口径,MiniMax Code 专门针对 M3 做了适配,更适合多 Agent 调用,整体运行也更适合长程、偏复杂的任务。


举个例子,我之前看到一张图片,是英伟达 GTC 大会的展位图,里面有大量展位和比较细小的文字,正好可以和 M3 的原生多模态能力结合起来用。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


我可以直接把这张图片发给 MiniMax Code,在里面调用 M3 模型,让它分析图中所有厂商,再根据各家的业务以及在上游、中游、下游的位置做整体分析,最后做成一个网页来展示。


具体做法是,直接在 MiniMax Code 里上传这张展会地图,让它整理成一份 AI 基础设施的展会情报报告。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


在这类复杂任务里,它执行了大量工作流,识别出图中相当多的厂商,并按照 AI 产业链的业态定位给出对应的展位号和公司名。当然,作为原生多模态模型,识别这种展位时还是会出现一些误差,所以它会再做一遍 review,并给出置信度。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


最终给出的这份交互式展会地图情报报告比较完整,所有厂商都按上下游做了标注,原图也作为一张可放大的地图单独放进了报告里。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


它还会按照置信度来匹配公司。比如在某个置信度之上,有 36 家公司被匹配出来,像英伟达的 Robotics、Vertiv 等关键词都被标注了出来。置信度的高低,取决于 M3 模型对这张图片中相应内容的识别情况。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


所有可识别到的公司,都会按照公司名称、Booth、分类、在产业中的位置、置信度以及 Verification 来组织。Verification 分为可直接采用、可作初步线索、待核实等几类。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


整个产业地图则按照上游基础设施、中游平台、下游应用,给出了一个简要的概览:


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


Token Plan


最后说说定价,涉及到钱相关的,不能不看。我们大致整理了下,这次 MiniMax 同步更新了 Token Plan,一共有三档:


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


横向对比一下,按官方给的口径,相同价格下的用量会比同档 Claude 便宜很多。


🚥


回头看这次更新,M3、MiniMax Code 和 Token Plan 是 MiniMax 给开发者提供的一套组合:一个能打的模型,一个配套的 Agent,加上一个用得起的价格。


当然,M3 和 Opus 4.7、GPT-5.5 之间的体感差距、1M 上下文的实际表现,还需要开发者们用时间和真实使用来回答。


不过放在更长的时间线上看,从 M2 到 M3,MiniMax 这一年的更新节奏并不慢。


这次也一样:新模型、配套的 Agent、技术博客、新的 Token Plan,几乎是一起放出来的。按官方说法,模型权重也会在十天内开源。


模型更新得越来越快,快到容易让人忘记:


把一个模型做扎实,本来是件慢功夫的事。


或许,对于能走得远的团队来说,能不能按着自己的节奏、思路,稳定地将模型迭代下去。


MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受


文章来自于"十字路口Crossing",作者 "GaKi"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0