一文揭秘全国首个国产算力训推万亿大模型。
智东西7月2日报道,最近几个月,一个名为“Owl Alpha”的神秘模型持续霸榜OpenRouter。它调用量长期位居全球前三,在Hermes、Claude Code和OpenClaw几大Agent模型中分别位列第一、第二和第三,不少开发者将其称为今年最令人意外的一匹“黑马”。


▲Owl Alpha位列OpenRouter中Hermes调用模型第一
直到6月30日,这个神秘模型才揭开面纱:它是美团最新发布的LongCat-2.0,一个总参数量1.6万亿、每token激活约480亿参数的MoE大语言模型。
从官方基准测试和智东西实测反馈来看,LongCat-2.0在原生Agent能力、编程以及适配主流编程工具方面,已经能够接近全球第一梯队水平。并且受益于Cache(缓存)命中免费的策略,Token plan包的Tokens消耗速度远低于同尺寸模型。
相比榜单成绩,更值得关注的是,LongCat-2.0是国内首个完全依靠国产算力完成训练与推理全流程的万亿参数模型,峰值训练规模超过5万张国产算力卡,是迄今为止国产算力平台上规模最大的训练任务。
过去几年,行业一直在追问:国产算力究竟能不能支撑世界级大模型训练?LongCat团队给出的答案是肯定的。
近日,智东西结合多位接近项目人士、产业信源以及相关技术资料,试图还原这场持续三年的国产算力实验。
三年前
一群人做了一个“头铁”的决定
把时间拨回2023年初,ChatGPT发布后国内AI团队疯狂抢购算力,A100一卡难求,GPU供给进入极度紧缺状态。
侯龙(化名)在美团龙猫团队长期负责训练相关工作,从0到1参与了LongCat-2.0的诞生。
据他透露,2023年上半年,团队内部开始认真讨论一个方向:能不能用国产算力做大模型训练?这个想法最初只是“随口一提”,但后来越想越觉得并非不可能。
彼时,国产算力生态尚不成熟,工具链薄弱,成功案例稀缺。行业的普遍共识是“国产卡只能做推理”。但LongCat团队不这么看。
“大模型训练不是玄学,也不是黑盒,它只是一个复杂度极高的科学系统工程。”一位知情人士也向智东西表示。龙猫内部分析是:大模型算子个数相对有限,适配工作量比想象中更聚焦。CUDA生态的壁垒建立在通用性和丰富性上,但如果目标收敛到大模型训练,这个壁垒并没有看上去那么不可逾越。只要硬件精度没有问题,就不存在原理上讲不通的障碍。
当时,这个团队的成员主要是做过一些搜广推、CV、语音类小模型的训练,并没有训练大模型的经验,但在机器学习Infra领域已有长足的积累。”上述人士称。
团队将判断向上沟通后,快速得到了公司明确支持。最终决定:从基座模型建设伊始就同步布局国产算力。用侯龙的话说,“团队从上到下没有一个人说‘行不通、我不用’,大家都是建设性地想办法,看怎么能把这个事做成。”
“我们还是挺头铁的。”在侯龙看来,“行业认为不可能的事,反而是一次证明自己的机会。”
2560卡到5万卡
一场不断踩坑的工程长征
LongCat并不是一开始就站在5万卡的规模上。
据侯龙介绍,团队的国产算力训练经历了清晰的渐进扩容路径:2023年7月,其正式启动国产算力适配,与算力厂商建立周会机制和高频技术交流;9月,团队成建制投入验证适配工作,从单算子验证到端到端打通,一步一步推进。
第一个关键里程碑出现在2024年春节前后。团队将端到端训练跑通,第一个Loss数值出来,和主流芯片结果非常接近。那一刻,工程上基本确认这条路走得通。用侯龙的原话:“那个时候,包括工程、算法在内的所有人,对国产算力能不能做训练已经没有怀疑了,剩下的无非是性能和性价比的问题。”
第二个里程碑是2024年7月。一个超过16000卡的国产算力集群交付给团队。拿到集群那天,大家本来说搞到12点就回家,但总觉得还能再往前走一步,“一不小心就到了早上四五点钟,夏天天亮得早,我还拍了一张日出的照片。”另一位亲历者回忆道。不过那天晚上并没有真正跑通,真正的端到端跑起来是在一周之后。作业正常跑起来的那一刻,几个同学还兴奋地合影留念。
从千卡到万卡再到5万卡,每跨越一个数量级,都会遭遇完全意想不到的问题。
“万卡集群第一次启动时,调度系统根本起不来。”上述亲历者透露,“整个作业的内存总和超过了整数的上限,系统直接显示不出来。”这是基础设施层面从未遇到过的场景,整个系统最初的设计压根不是为了这个量级的作业准备的。
还有一类更隐秘的问题。到了几万卡的规模,团队发现了“比特翻转”,硬件在计算过程中,电路可能随机出现比特翻转,导致数值计算错误。它不是稳定必现的,也很难归因为硬件制造缺陷,本质上是一个物理规律:当规模足够大,再低的概率都会暴露出来。小规模训练时根本不知道有这个东西存在,直到某个万卡级别训练过程中,出现了数值对不齐的问题,深入追查后才意识到是比特翻转导致的。团队后来去翻行业里的技术报告,发现只有Google的论文里提过一小段,其他厂商几乎没有公开讨论过这个问题。
稳定性是首要面对的硬骨头。大模型训练是同步训练,这意味着所有卡必须同时正常工作、步调一致。一张卡出问题,整个作业就会挂掉。几万张卡同时不出问题的概率,会随规模增加呈指数级下降。
团队的做法是两条腿走路:一是每次故障都坚持找到根本原因,硬件故障也好、软件bug也好、参数配置问题也好,逐一归因并做针对性修复;二是不指望不出问题,而是追求出了问题之后能快速发现、快速恢复。最终,团队建立了一整套自动感知和恢复机制,整个容错过程不需要人工介入。
围绕稳定性、正确性和效率三条主线,团队重新构建了一套超大规模训练体系。据技术资料显示,通过自动重调度和容错恢复,训练稳定性超过92%,月均日故障率相比最初降低了70%;通过确定性算子实现Bitwise一致性训练;通过ScMoE架构和Zero Bubble Pipeline等优化,将硬件浮点计算利用率提升了超5成。
5万卡级别的训练,真正的挑战从来不是算力堆砌,而是系统工程。
国产算力没有成熟生态
就自己重写一套基础设施
在国产算力平台上做5万卡规模的训练,意味着几乎无法依赖现成的软件生态。
据一位曾参与国产算力训练万亿规模模型工作的业内人士介绍,随着训练规模持续扩大,需要重写的其实远不止几个算子,而是整套基础设施。“可以说,从核心算子、通信框架到调度系统、训练工具链,LongCat团队应该是在国产硬件之上重新搭建了一遍大模型软件栈。”
对此,侯龙也给予了正面回应,一个典型的例子是算子开发。在成熟生态上,一个算子可能一到两周就能完成;但在国产算力平台上,最初需要一个月以上。“同样的算子,开发周期差了好几倍,非常痛苦。”侯龙回忆。包括编程模型、调试工具在内的整个开发体验,早期都不太好用。
但团队没有等,而是在关键算子上选择自研。比如FlashAttention反向梯度算子,当时国产平台上有一个“确定性”实现,但为了做到计算顺序固定,退化成单核顺序执行,耗时比非确定性版本慢了20到70倍,在生产环境中几乎不可用。LongCat团队在国产芯片上自研了高性能的确定性算子,最终将性能损失控制在5%左右,既保住了确定性,又没牺牲效率。同样的自研还发生在Scatter类算子上,原有实现效率极低,团队重新设计了确定性并行算法,将性能提升了数十倍。
这些底层算子的自研,最终使“整网确定性训练”成为可能,每一步的计算结果都能精确复现,任何一次异常都能被快速定位。在国产芯片工具链尚不完善的阶段,这是排障的刚需。
不过,国产算力的软件生态演进速度很快。据另一位知情人士透露,到了现在,虽然硬件架构不同导致编程范式有差异,但开发效率和调试体验已经没有特别显著的区别。“尤其是Agent Coding出现后,一些相对简单的算子可以用AI辅助生成,生态壁垒确实比之前低了很多。”
更令人意外的是精度层面的发现。该人士透露,团队以CPU的FP64精度为基准标杆,对同一计算逻辑在不同芯片上做了对比实测,发现国产算力在部分核心算子上的计算误差甚至低于主流芯片。“大家天然认为国产算力误差更大,但实测结果恰恰相反。”该人士表示。
从硬件架构上也能找到解释:国产芯片在累加位宽上做得更宽,能保证更高的累加精度。但更值得注意的是一种行业心态,长期以来,行业默认把主流芯片的计算结果作为标准答案,但这并不意味着它就是精度最高的,只是大家习惯了拿它来做参照。LongCat团队的实测表明,只要计算正确性得到保证,国产芯片并不存在不可跨越的技术鸿沟。
模型能力实测
LongCat-2.0验证了什么?
LongCat-2.0的意义,并不局限于完成了一次国产算力训练。国产算力训出来的模型,在真实能力上同样经得起检验。
正如前文提到,在匿名上线OpenRouter期间,LongCat-2.0获得了全球开发者社区的广泛验证。同时,其在6月30日公布的综合评测显示,LongCat-2.0在编程和通用Agent两大场景中均表现优异。
编程方面,LongCat-2.0在SWE-bench Pro得分59.5,虽然还不及SOTA模型Claude 4.8和4.7,但已超过Gemini 3.1 Pro(54.2);在SWE-bench Multilingual取得77.3,与Claude Opus 4.6(77.8)接近持平;在Terminal-Bench 2.1真实终端指令交互评测中取得70.8,展现出稳定的执行与纠错能力。
办公场景方面,LongCat-2.0在搜索智能体评测集RWSearch得分78.8,生产力场景FORTE得分73.2,BrowseComp得分79.9,三项均达到或接近前沿闭源模型水平,验证了多步骤任务规划、复杂工具调用及长程检索执行上的可靠性。

▲LongCat-2.0的测评成绩
根据美团官方案例,LongCat-2.0在AI SQL Agent搭建、代码库迁移、儿童AI游戏训练场应用开发、3D交互演示、AI小说工厂等真实工作场景任务中都能较好完成任务。

▲基于LongCat-2.0的数据分析智能体(源自:美团)
而智东西在Hermes中实测LongCat-2.0后发现,该模型在逻辑推理上表现较好,同时在编程任务上能够有较高完成度,且与Agent协同下能实现相对复杂的编程任务。最关键的是,受Cache(缓存)命中免费的策略影响,其Tokens消耗速度远低于同尺寸模型。
具体来看,当我要求LongCat-2.0生成一个可交互的macOS桌面页面,它不仅能够生成一个十分相似的页面视图,还能生成可以点击的真实可用图标,比如点击文件、计算器、便笺等都能够进入对应的页面。其生成的计算器可以准确地算数,不过文档应用缺少保存选项。

▲LongCat-2.0生成的可交互的macOS
当我要求LongCat-2.0在Hermes上实现一个类似 Google Docs 的协同编辑系统,LongCat-2.0能够比较顺畅的完成,展现出可靠的编程及Agent能力。关键Token消耗速度只是其他竞品模型的五成,收费默认打“五折”就很好评。

▲LongCat-2.0生成的类Google Docs协同编辑系统
综合来看,LongCat-2.0已经接近全球第一梯队Agent模型能力。而更重要的是,这些能力是百分之百在国产算力上训练出来的,从而让这场持续三年的国产算力实验,拥有了更强的说服力。
万亿参数模型背后:
国产算力正在跨过一道门槛
LongCat-2.0的发布,真正验证了什么?
“我们2024年就验证了国产算力用于前沿训练完全可行,只是到今天才把结论明确讲出来。”一位参与项目的前龙猫成员向智东西称。
在他看来,LongCat验证的不只是一个模型,而是一整套国产大模型工程体系。从千卡到5万卡的渐进扩容路径、从算子重写到确定性计算的软件栈建设、从超节点性能一致性到比特翻转的故障应对,这些经验积累下来,已经形成了一套可复用的方法论。
在国产算力时代,模型架构需要重新思考。“模型架构不是算法说了算,也不是工程说了算,是算法和工程Co-Design(联合设计)的结果。”该成员强调,模型需要针对国产硬件的显存大小、通信性能等特点做针对性设计。
比如,LongCat-2.0提出了ScMoE、零计算专家等原创设计,这些创新不仅为了追求模型能力,还是在“适配国产硬件”。
ScMoE通过Shortcut连接让Dense FFN路径与MoE通信并行,理论推理延迟可降低约50%。零计算专家机制每层配置128个零专家与768个FFN专家共同路由——零专家不计算,直接返回输入,使激活参数量在330亿到560亿间动态变化,LongCat-2.0是业界首个实现此机制的大规模MoE模型。N-gram Embedding将embedding空间扩展约100倍,在代码生成、指令理解等任务上表现更稳定。
推理层面,龙猫团队针对国产算力显存与带宽受限的特点,采用大Expert Parallelism聚合访存带宽,通过上下文并行容纳百万级长上下文。算子层面实现精细控核、SuperKernel内联优化,将相邻算子的启动开销与计算重叠,端到端带来约8%的TPOT(推理延迟)提升,极限TPOT已接近行业主流水平。
把时间拉长到未来三到五年,国产AI基础设施最需要补齐的短板是什么?侯龙认为,工艺制程仍然是硬约束。单颗芯片的参数与国际顶尖水平仍有差距,这是客观现实。但通过系统集成可以弥补单芯片的不足,硬件厂商已经在做大量工作。
“这不是一个不可跨越的障碍。”侯龙表示。国产算力要真正坐稳全球第一梯队,关键在于算法、基础设施、芯片三者的协同设计。以LongCat-2.0的经验来看,这条路已经被证明走得通。
结语:未来AI竞争
将是一场系统级全栈竞争
LongCat-2.0的出现,标志着国产算力在大模型训练领域迈过了一道关键门槛,从“能不能”进入“好不好”的阶段。
从2023年7月启动国产算力适配,到2024年春节端到端跑通,到2025年年中Flash版本发布时在技术报告里用“accelerator”而非“GPU”的隐晦表达,再到本周明确宣布“百分之百国产算力训练”,这背后是一条持续三年的技术演进路径。
当国产算力开始承载万亿参数级MoE模型的全流程训练和推理,这件事的意义已经超出了单一公司或单一模型,而是有望沉淀成整个国产AI基础设施的公共能力。未来AI竞争的重心,正在从单点突破走向系统级全栈能力的比拼。
文章来自于微信公众号 “智东西”,作者 “智东西”