AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTAMiniMax最新旗舰级Coding & Agent模型M2.1,刚刚对外发布了。这一次,它直接甩出了一份硬核成绩单,在衡量多语言软件工程能力的Multi-SWE-bench榜单中,以仅10B的激活参数拿下了49.4%的成绩,超越了Claude Sonnet 4.5等国际顶尖竞品,拿下全球SOTA。
搜索
MiniMax最新旗舰级Coding & Agent模型M2.1,刚刚对外发布了。这一次,它直接甩出了一份硬核成绩单,在衡量多语言软件工程能力的Multi-SWE-bench榜单中,以仅10B的激活参数拿下了49.4%的成绩,超越了Claude Sonnet 4.5等国际顶尖竞品,拿下全球SOTA。
近两年,随着底层大模型在 Coding 等方面上的能力提升,像秒哒这样的 AI 生产力产品也越来越成熟。编程,这样一件在大众视野下普遍被认为门槛很高的事情,也逐渐变得民主化。一些学习能力和动手能力比较强的人,也被称为 AI 时代的超级个体。
前有 vibe coding ,随着 nano banana 升级 pro, vibe PPT 也跟着来了。最近我在 GitHub 上挖到一个项目:banana slides 。这是一个基于 nano banana pro 的原生 AI PPT 生成应用。
扩散语言模型(Diffusion Language Models)以其独特的 “全局规划” 与并行解码能力广为人知,成为 LLM 领域的全新范式之一。然而在 Any-order 解码模式下,其通常面临
来自中国的初创团队词元无限给出了自己的答案。由清华姚班校友带队设计开发的编码智能体 InfCode,在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 两项非常权威的 AI Coding 基准中双双登顶,力压一众编程智能体。
昨天晚上打开蚂蚁那个灵光,发现他们更新了一个很有趣的东西。
在大语言模型(LLM)的研究浪潮中,绝大多数工作都聚焦于优化模型的输出分布 —— 扩大模型规模、强化分布学习、优化奖励信号…… 然而,如何将这些输出分布真正转化为高质量的生成结果 —— 即解码(decoding)阶段,却没有得到足够的重视。
「Vibe Coding 肯定是有 PMF 的,但 Vibe Coding 产品其实还没找到自己的 PMF。」AI Coding 明星产品 Lovable 的增长负责人 Elena Vera,在一次采访中明确说道。来自 The Information 数据,以 Cursor、Claude Code 为代表的 AI Coding 工具的累计营收,已经突破了 31 亿美元。
2025 年以来,各种 AI Coding 的宣发,已经从科技进步,快进到了科幻文学赛道。C 端市场,一句话生成 Demo 的宣发内容仍在收割流量,将技术演进包装成科幻叙事;但没人关心小白为什么要做 coding,一句话生成的的 demo,在生产环境能跑起来吗?
专注推理任务的 Large Reasoning Models 在数学基准上不断取得突破,但也带来了一个重要问题:越想越长、越长越错。本文解读由 JHU、UNC Charlotte 等机构团队的最新工作