GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。
搜索
Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。
这家由 Khosla Ventures 领投的AI原生财务规划与分析(FP&A)平台公司,正在彻底改变企业财务团队的工作方式。自从 A 轮融资以来,Aleph 的增长速度达到了惊人的 10 倍,为 Zapier、Turo、Harvey、Chess.com 等行业领先公司的财务工作流程提供支持。但更重要的是,他们不仅仅在创造一个软件产品,而是在塑造一种全新的财务专业人员工作模式
近年来,大语言模型(LLMs)在复杂推理任务上的能力突飞猛进,这在很大程度上得益于深度思考的策略,即通过增加测试时(test-time)的计算量,让模型生成更长的思维链(Chain-of-Thought)。
人工智能初创公司Invisible Technologies 作为 Scale AI 的竞争对手,在新一轮融资中筹集 1 亿美元资金,这凸显了硅谷投资者对人工智能热潮基础构建模块的持续关注。
就在 Scale AI 公司的 95 后创始人 Alexandr Wang 在 Meta 挑大梁之际,他迎来了一位比他更小的 00 后劲敌。这名 00 后叫阿里·安萨里(Ali Ansari),是一名
不得了,这个名叫Gauss(高斯)的新AI Agent,有点杀疯了的感觉。 因为它只用了三周的时间,就完成了陶哲轩和Alex Kontorovich提出的数学挑战——在Lean中形式化强素数定理(Prime Number Theorem,PNT)。
AI 数据行业,总有新人出头。
Meta豪掷143亿收购Scale AI,意外成就了3名22岁青年的创业神话!他们靠着为OpenAI等顶级AI实验室输送模型专家训练师,干出百亿独角兽Mercor,年入1亿美金。目前,Mercor在《福布斯》Cloud 100 榜单中排名第89位。
七岁学音乐,剑桥读硕期间组乐队,Alexander Cobb一度以为音乐是毕生挚爱。但奥特曼的一场演讲,当头一棒,让他醍醐灌顶:果断自学编程搞AI,十个月后投身创业,坚信AI是新的「互联网」,终将掀起第四次工业革命。
Meta内讧大戏再升级!首席AI官Alexandr Wang审核图灵奖大佬论文,LeCun亲自发帖疑似暗讽28岁新上司。没有PhD、没开源代码、没发表论文,都称不上AI研究员。