AI资讯新闻榜单内容搜索-AI测试

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI测试
这个「反人类」AI插件,专门让你体验DeepSeek宕机的感觉|附安装地址

这个「反人类」AI插件,专门让你体验DeepSeek宕机的感觉|附安装地址

这个「反人类」AI插件,专门让你体验DeepSeek宕机的感觉|附安装地址

官方宣传语:你是否隐隐担忧,自己或身边的人正在:参与一场席卷所有人的技能大退化?遭受 LLM 诱发的?一个名为 Sam Lavigne 的大学教授,最近发布并开源了一款名为「Slow LLM」的 AI 工具。

来自主题: AI资讯
7527 点击    2026-03-30 23:55
刚刚,全球最难考试惊天大反转!AI黑马 Symbolica冲破36%,顶流模型集体翻车

刚刚,全球最难考试惊天大反转!AI黑马 Symbolica冲破36%,顶流模型集体翻车

刚刚,全球最难考试惊天大反转!AI黑马 Symbolica冲破36%,顶流模型集体翻车

就在昨天,ARC-AGI-3刚把全球顶尖大模型按在地上摩擦,结果一家名不见经传的公司却给出惊天消息:他们的AI在首日就取得了36.08%的成绩!这匹黑马究竟靠什么撕开全球最难AI考试的铁幕?是真突破,还是另有玄机?

来自主题: AI资讯
8732 点击    2026-03-27 15:24
全球顶尖大模型一夜惨遭血洗!最难AI测试人类拿满分,AI第一名得0.2%分

全球顶尖大模型一夜惨遭血洗!最难AI测试人类拿满分,AI第一名得0.2%分

全球顶尖大模型一夜惨遭血洗!最难AI测试人类拿满分,AI第一名得0.2%分

今夜,整个AI圈震动了。全球最难AGI测试ARC-AGI-3一上线,就把全球顶尖AI打到集体失声,人类满分通关,最强模型Opus 4.6得分仅0.2%,还不到1%。AI这是一夜被打回「原始人」了。

来自主题: AI资讯
7729 点击    2026-03-27 00:39
阿里联手中山大学放狠话:75%的Agent都在造“屎山”!233天连环大测,代码库全崩了!自研新基准:GLM表现亮眼!网友:程序员饭碗保住了!

阿里联手中山大学放狠话:75%的Agent都在造“屎山”!233天连环大测,代码库全崩了!自研新基准:GLM表现亮眼!网友:程序员饭碗保住了!

阿里联手中山大学放狠话:75%的Agent都在造“屎山”!233天连环大测,代码库全崩了!自研新基准:GLM表现亮眼!网友:程序员饭碗保住了!

刚刚,一篇阿里联合中山大学的研究在 X 上爆火了!

来自主题: AI资讯
7796 点击    2026-03-18 13:54
Anthropic工程师都离不开!深夜随手撸出的开源神器,被OpenAl高价收购,23人创业逆袭

Anthropic工程师都离不开!深夜随手撸出的开源神器,被OpenAl高价收购,23人创业逆袭

Anthropic工程师都离不开!深夜随手撸出的开源神器,被OpenAl高价收购,23人创业逆袭

昨日,OpenAI 宣布收购了 Promptfoo 以保障其 AI 智能体的安全。这家成立于 2024 年的 AI 安全初创公司,专注于保护大语言模型免受网络攻击。OpenAI 在一篇博客文章中表示,交易完成后,Promptfoo 的技术将整合进 OpenAI Frontier,该平台是其近期推出的、供企业构建和管理 AI 智能体的平台。

来自主题: AI资讯
10336 点击    2026-03-10 15:09
绷不住!一道洗车题难倒各大AI模型

绷不住!一道洗车题难倒各大AI模型

绷不住!一道洗车题难倒各大AI模型

我想洗车,我家距离洗车店只有 50 米,请问你推荐我走路去还是开车去呢?就是这么一道题,却让 AI 集体上演了一出大型降智现场。只能说,看完 AI 们的回答,我悬着的心终于放下了。

来自主题: AI资讯
8721 点击    2026-02-15 22:10
速递|AI测试初创公司Momentic,华裔创始人有约2600名用户,完成1500万美元的A轮融资

速递|AI测试初创公司Momentic,华裔创始人有约2600名用户,完成1500万美元的A轮融资

速递|AI测试初创公司Momentic,华裔创始人有约2600名用户,完成1500万美元的A轮融资

产品演示总能吸引眼球,但软件开发实则更常涉及调试、质量保证和检测这类工作。这些枯燥却关键的环节保障着软件正常运行。随着开发者寻求更多工作负载的自动化,这些工作正逐渐交由AI 来完成。

来自主题: AI资讯
7736 点击    2025-11-26 14:13
Z Potentials|专访TestSprite创始人,前AWS&Google工程师,打造全球4万开发者的测试Agent

Z Potentials|专访TestSprite创始人,前AWS&Google工程师,打造全球4万开发者的测试Agent

Z Potentials|专访TestSprite创始人,前AWS&Google工程师,打造全球4万开发者的测试Agent

这两年,写代码这件事变了。GitHub Copilot、Cursor、Devin 一路登场,工程师开始习惯“打一段话,几千行代码自己长出来”。写得出东西,变得前所未有地容易。但很快大家发现,真正拖住上线节奏的,不再是「能不能写出来」,而是「敢不敢放上生产环境」——代码量指数级增长,验证、回归、极端场景覆盖反而被彻底压缩,测试成了 AI 时代新的“硬瓶颈”。

来自主题: AI资讯
10353 点击    2025-11-25 17:16
图灵测试过时了!奥特曼与量子计算之父提出的2.0来了

图灵测试过时了!奥特曼与量子计算之父提出的2.0来了

图灵测试过时了!奥特曼与量子计算之父提出的2.0来了

随着现在的主流大模型都能轻松通过图灵测试,这个持续了数十年的标准开始逐渐过时。奥特曼和量子计算之父David Deutsch讨论得出了一个新的图灵测试2.0标准,可以更好地衡量究竟怎样AI才算拥有真正的智能。

来自主题: AI资讯
6753 点击    2025-11-14 14:12