四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了
四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了就在最近,英国前首相府数据科学家Liam Wilkinson,花一个周末搭了76个MCP工具,把Claude、GPT、Gemini等四个顶尖模型扔进了《文明VI》。结果,23场对局打完,其中一个AI造了核弹炸了法国——然后输了。
搜索
就在最近,英国前首相府数据科学家Liam Wilkinson,花一个周末搭了76个MCP工具,把Claude、GPT、Gemini等四个顶尖模型扔进了《文明VI》。结果,23场对局打完,其中一个AI造了核弹炸了法国——然后输了。
最近看到越来越多的一些国民级产品,开始把自己的一些能力,给封装称Skill或者MCP,来向大家开放,我觉得这个大家逐渐为Agent来做能力的趋势,越来越明显了。特别是前段时间瑞幸咖啡上线了AI开放平台,支持MCP、CLI、Skill三种接入方式。
Liquid AI 近期推出的 LocalCowork,正是直面这一矛盾的产物:单台笔记本,无需云端 API,数据绝不离机。凭借 67 个本地工具、13 个 MCP Servers,配合最新发布的 LFM2.5-8B-A1B 模型,它通过本地调用工具、解释结果以及可审计的工作流,解决了上述难题。
刚刚,Anthropic买下了SDK工具公司Stainless,从开源MCP到收购Stainless,Anthropic的智能体棋盘已集齐模型、接口、连接三件套。
刚刚 Anthropic 又给他们的官方 Managed Agents 加了俩功能:自托管沙箱 self-hosted sandboxes 和 MCP 隧道 MCP tunnels
Anthropic一口气甩出10个金融智能体模板,穆迪6亿家公司数据通过MCP打通,Office全家桶全线就位:这不是模型升级,是一次工作流入口的抢占。
早在2024年,人们还倾向于给Agent提供海量的工具(例如通过MCP协议连接的API、搜索引擎、代码解释器等)。但是,“拥有工具”并不等于“知道如何使用工具”。当任务变得复杂且长周期时,要求Agent每次都从头开始推理“该用哪个工具、何时用、怎么组合、出错怎么办”,会导致系统极度脆弱、延迟极高且不可靠。
今天早上,OpenAI突然宣布一个促销政策:未来 30 天内,企业用户如果迁移到 Codex,2 个月免费 Codex 用量。同期,桌面端还内置了迁移工具,可以把 Claude Code 的 system prompts、custom skills、chat history、MCP server 配置一键搬过来。
随着MCP、Agent Skills与各类Harness的快速发展,大模型能轻松调用成百上千种外部工具,但在多工具,具备复杂状态、长程交互的任务上仍有明显短板。尽管一系列环境扩展方法尝试复刻真实世界的交互环境(如订票系统,外卖平台),但仍受限于环境扩展的规模与真实性。
谷歌真是急了。 前脚刚传来消息,称谷歌联合创始人谢尔盖·布林重启“创始人模式”,亲自督战并组建精英“突击队”,全力提升Gemini在AI编程和自主智能体等关键能力上追赶Anthropic等对手。 后脚