被困在考场里的大模型

8862点击 2026-05-30 10:50

被困在考场里的大模型

昨天，大名鼎鼎的 Claude 4.8 发布了。

科技圈照例是一片欢呼。

看官方放出来的一堆评测数据，依然是碾压级别的，尤其是说代码（Coding）能力有了史诗级的提升，简直像交了一份满分答卷。

但如果你去一线程序员的圈子里转转，会发现大家极其冷静。

很多人尝鲜之后的体感是：写个单点代码确实强，但一旦把它接入真实的业务系统，让它去排查个稍微复杂点的线上 Bug，

它依然会卡壳、兜圈子，甚至一本正经地胡说八道。

这就引出了当下 AI 行业最大的一个魔幻现实：

大模型的跑分越来越高，但在真实的干活场景里，大家总觉得它们像个高分低能的应试生。

这个其实很简单，因为很多人没搞明白，会修单点代码和会在系统终端（Terminal）里排查故障，根本是两个维度的生存能力。

遗憾的是，现在的绝大多数大模型，依然被牢牢困在考场里。

做题家干不了真活

要想弄明白这些估值千亿的模型为什么不好用，得先回到过去两年的历史里，看看那些曾经决定大模型生死的榜单，到底在测什么。

在人工智能狂飙突进的前半段，整个行业其实是陷入了一场声势浩大的应试教育。

那时候，科技巨头们用来证明自己比别人聪明的工具，是几个著名的静态代码榜单，比如早期的 HumanEval，以及名噪一时的 SWE-bench。

这个游戏的规则非常古典：

题库是既定的，给你一段来自于 GitHub 开源仓库里的代码，明确告诉你这里有一个 Bug，或者需要增加一个具体的功能，

请大模型生成一段代码补丁。

被困在考场里的大模型

明白人都知道，这就是驾校里的科目二考试。

场地是画好白线的，没有行人，没有加塞的社会车辆，连风向和摩擦力都是设定好的。

更残酷的现实是，当所有人都知道考卷长什么样的时候，内卷就不可避免地发生了。

各大厂商没日没夜地把海量的高质量代码、测试集、甚至是变种的考题喂给模型。

在庞大算力的堆叠下，只要环境是无菌的、上下文是给全的，AI 们都能穿上长衫，写出极其工整的八股文。

但真实世界的底色，往往是荒诞和混乱的。

随便走进一家运转了超过两年的互联网公司，去看看支撑他们几百亿营收的底层 IT 系统，那从来不是什么逻辑严密的艺术品，而是一座座经历了无数轮业务迭代、被无数离职员工缝缝补补的数字废墟。

行业里有个不太文雅但极其精准的词来形容它——

屎山代码。

在这个迷宫里，跑着成千上万个微服务，有些服务连最初写它的人都已经转行去卖保险了。

没有最新版本的探针，没有详尽的说明文档，甚至连抛出的报错日志都有可能是系统底层的陈年 Bug 误报的。

当一个习惯了在无菌球体里做物理题的状元，被突然剥夺了考纲，赤身裸体地扔进这种没有标准答案的废墟里时，脑子瞬间宕机是它唯一的宿命。

用户不是傻子

商业世界的法则是冷酷的。买单的企业老板和投资人并不都是傻子。

当老板们花着每年几百万的订阅费，请回一群只会纸上谈兵的理科状元模型。

却发现服务器宕机时，依然需要半夜打电话把睡眼惺忪的运维工程师叫起来排查问题，资本的耐心就开始耗尽了。

风向大概是从 2025 年的下半年开始彻底转变的。

大家悄悄把以前奉为圭臬的卷子撕了，换成了车间里沾满油污的扳手。

整个大模型评测行业，开始了一场惨烈的脱虚向实。

为了挽回颜面，早期的标杆 SWE-bench 赶紧推出了 Pro 和 Verified 等进阶版本，试图把那些脱离实际的短代码题目删掉，转向更长程的软件工程测试。

但这还不够。

为了测试 AI 到底能不能像一个真正的打工人那样解决问题，行业里冒出了一大批非常刁钻的新榜单。

比如 OSWorld-Verified，它不再让你写代码，而是盯在电脑桌面上，看 AI 能不能像人类一样，自己挪动鼠标、点开浏览器、拖拽文件去完成一个跨软件的任务。

比如 Terminal-Bench 2.1，它直接把 AI 关进黑乎乎的命令行终端里，只给一个闪烁的光标，看它会不会自己敲写 Linux 命令去排查底层逻辑。

甚至还有一个名叫 Humanity's Last Exam（人类终极考试）的变态榜单，专门为了榨干大模型的极限推理和多学科工具调用能力而生。

被困在考场里的大模型

从发考卷到进车间，这些新榜单的核心逻辑只有一个：不再看你的语法有多漂亮，只看你能不能在没有提示词保姆的情况下，自己走完泥泞的最后一公里。

而在这场砸碎考场运动中，走得最决绝的，是前几天刚刚发布的一个新榜单。

IBM 软件创新实验室和 Artificial Analysis 联合推出了一个全新的基准测试：ITBench-AA。

在这张考卷面前，过去所有的荣耀都不值一提。

谁在裸泳，谁在干活？

ITBench-AA 不相信八股文。

它甚至连前置提示都不给，直接把大模型踹进一个真实模拟的企业级 Kubernetes（K8s）集群里。

对于不在 IT 圈的人来说，可能很难理解 K8s 集群意味着什么。

你可以把它想象成一个拥有几万个集装箱、几十台塔吊同时运作的超级码头。

这里面任何一条网线的阻断、任何一个内存的溢出，都会引发灾难性的连锁反应。

测试方会人为搞死码头里的一个微服务。然后冷冷地告诉 AI：

系统瘫痪了，你自己看着办。

在这里，模型必须扮演一个资深的 SRE（站点可靠性工程师）。

它需要自己打开控制台，自己敲下 kubectl 相关的命令，去查看 Pod 的状态，去翻阅几千行的冗杂日志，去追踪微服务之间的调用链路，最后找出导致崩溃的真正原因。

被困在考场里的大模型

最体现这个榜单残酷商业逻辑的，是它的评分标准：

采用全量召回下的平均精确率。

用大白话说就是，如果一场雪崩是由三片雪花引起的，你找到了两片，依然是 0 分。

一分同情分都不给。

因为在真实的商业世界里，问题不解决闭环，服务器照样宕机，用户的资金照样会受损。

只有在这种没有任何安全网的荒野求生里，你才能看出谁在裸泳，谁在真正干活。

官方公布的实战排名表，像是一份戳破了两年泡沫的做空报告。

前两名依然是全球帝国权杖的持有者：Claude Opus 4.7 和 GPT-5.5 的顶配版。

在绝对的参数体量和算力压制下，老大哥的底子依然是最厚的。

被困在考场里的大模型

但在这份榜单的众多测试细节里，有些平时以高智商自居的顶级模型，吃相却极其难看。

比如名气极大的 Gemini 3.1 Pro。

在这个没有考纲的黑盒子里，它像一个极度焦虑且手足无措的实习生。

面对系统的瘫痪，它慌不择路，在终端里疯狂输入各种探测命令。

根据官方的数据，为了找出一个 Bug，它跟系统来回交互了足足 83 个回合。

在真实的机房里，这种被称为过度调查的行为，是一场比宕机更大的灾难。

一个没有方向的 AI 在脆弱的系统里瞎敲 83 次命令，足以把无关的配置改乱，甚至直接把核心数据库清空。

最终，它搞出了一堆误报，只拿到了不到 30% 的分数。

方向不对的时候，勤奋只是一种掩饰无能的动作。

而在榜单的第三名，出现了一个让人略感意外、却又在情理之中的名字：

来自中国阿里的 Qwen3.7-Max。

它在这个堪称变态的测试里，拿下了 42.5% 的得分率，紧紧咬死了前两名。

但如果稍微懂一点工程逻辑的人，真正看重的绝不是这个分数，而是它背后那个极度内敛的数据。

在这场荒野求生中，Qwen3.7-Max 平均只用了 37.6 轮交互。

告别考场

不到 38 轮交互。

面对同样复杂的烂摊子，别人用了 83 步拿到 30 分，它用了一半不到的步数，拿下了 42.5 分。

这种交互轮次的断崖式缩减，背后是极其冷酷的商业算计和工程直觉。

首先，在 API 主导的算力世界里，交互就意味着燃烧。

AI 的每一次敲击命令、每一次读取成百上千行的报错日志，消耗的都是庞大的 Token，也就是真金白银。

试错 83 次和 37 次解决战斗，意味着企业要在它身上承担完全不在一个量级的算力成本。

花最少的钱，办最狠的事，这是企业生存的第一法则。

其次，它展现出了一种在大模型身上极度稀缺的克制。

真正修过下水道的老工人，走到漏水的地方，听个声就能大概知道是哪根管子裂了。

他不会把整栋楼的墙皮都砸开。

Qwen3.7-Max 在这 37 轮里展现的，正是这种老油条般的直觉。

看一眼报错日志，就知道该顺着哪条链路去摸排；

试探敲下一行命令发现走进了死胡同，它能够牢牢记住前面的长程上下文，及时回头，换一个方向继续深挖。

它没有陷入大模型常见的幻觉死循环里。

它知道哪里该深挖，哪里该适可而止。

当我们把这个数据，和阿里官方给这款模型定下的另一个硬指标结合起来看时，隐藏在底层代码深处的野心就完全浮出水面了。

官方的视频里展示了一个Case：Qwen3.7-Max 支持长达 35 小时自主执行，连续上千次工具调用。

被困在考场里的大模型

这是什么概念？

人类的注意力是极其脆弱的。

一个资深的工程师，在深夜的电脑屏幕前，盯着满屏闪烁的英文报错代码看上两个小时，视网膜就会开始疲劳，大脑会不自觉地遗漏关键的上下文线索。

人类需要抽烟、需要喝咖啡、需要睡眠。

但 35 个小时的自主执行，意味着阿里从一开始，就没打算在这场军备竞赛中，去培养一个只会写漂亮八股文的理科状元。

他们造出的，是一个能够在代码废墟深处，连续排查两天两夜而不丢失记忆的赛博黑工。

你可以在周五下班的打卡机前，把一个排查了两个月都没有头绪的幽灵内存泄漏问题扔给它。

在接下来的周末里，这个没有实体的工人，会在黑乎乎的终端控制台里，默默敲下几千行命令，翻阅几个 G 大小的系统日志，不断试错、推理、再试错。

在这个过程中，不需要任何人去教它下一步该点哪里。

等到下周一早上你端着咖啡走进工位时，一份包含根因分析、错误代码行数以及修复建议的报告，已经安静地躺在了桌面上。

当然，如果你翻开 ITBench-AA 这份榜单的全局数据，里面还藏着另一个极其残酷的真相。

哪怕是坐在王座上的第一名（Claude Opus 4.7），得分也依然没有跨过 50% 的及格线。

这意味着什么？

意味着在错综复杂的企业级 IT 废墟面前，今天所有的 AI 加起来，依然只是个步履蹒跚的学徒。

硅谷发布会上吹嘘的人工智能马上就能完全接管系统，

在冰冷的现实面前，被狠狠扇了一记耳光。

在真正的生产环境里，大模型距离独当一面，依然有极长的一段夜路要走，还有无数的错要试，无数的坑要踩。

但至少，这大半年来的榜单交替证明了一件事：行业的巨头们终于停止了自欺欺人。

大家不再沉迷于在无菌的考场里刷 99 分的假象，而是选择用 Agent（智能体）的形态，去死磕真实世界里那些残缺、混乱、甚至无解的任务。

哪怕现在依然跌跌撞撞，哪怕最高分还不到一半，但这条从工具走向独立劳动力的大方向，终于对了。

脱下大模型的长衫

时代的分水岭，往往是在极其安静的时刻出现的。

Claude 4.8 依然是一款无可挑剔的伟大产品。

在硅谷的聚光灯下，它像极了一份字体隽秀的满分考卷。

但属于考卷的时代，正在不可挽回地远去。

因为大厂机房里那些长满青苔的屎山系统，从来不相信西装革履的聪明人。

人工智能的下半场决战，早已不是一场比拼小数点后几位分数的算力游戏。

它的残酷在于，谁能率先脱下那件体面的长衫，换上沾满油污的劳保鞋，走进没有标准答案的黑框终端里，去干最脏、最累的活。

至少从这份冷冰冰的榜单来看，在这条泥泞的夜路上，已经有人一声不吭地，走到了前面。

感谢您的观看🥹

我是Max，一个在AI方向持续探索的小学生。

我会持续更新一些AI方向最新最快的产品，技术，思考

文章来自于微信公众号 "01Founder"，作者 "01Founder"

关键词: AI新闻 , 模型训练 , 大模型测试 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0