AI资讯新闻榜单内容搜索-Arena

ICML 2026｜让AI自动发现前沿风险：创智×复旦×牛津发布AutoControl-Arena

当 AI 智能体（Agent）从实验室走向真实应用，我们面对的安全问题也正在发生变化。

来自主题: AI技术研报

9872 点击 2026-06-25 10:03

中科院工业人工智能研究所世界模型PAIWorld登顶WorldArena榜单！

日前，世界模型国际权威榜单 WorldArena 更新排名，中国科学院工业人工智能研究所徐凯研究员带领物理智能团队（The PAI Lab）自研的世界模型 PAIWorld 登顶。WorldArena 作为目前世界模型领域最权威的评测榜单，是针对具身世界模型的全方位评价体系，涵盖视觉质量、运动质量、内容一致性、物理遵循、三维准确性及可控性六大维度

来自主题: AI资讯

8454 点击 2026-06-22 11:33

PEFT方法评测不能只看下游分：通用能力损失也该被量化

近期，来自香港中文大学、西湖大学、德国马普所等机构的研究者提出了 PEFT-Arena —— 一个从稳定性‑可塑性权衡（stability–plasticity trade-off）视角重新审视 PEFT 方法的评测基准与分析框架。该工作已在 ICLR 2026 相关 workshop 上进行了展示，并开源了完整代码。

来自主题: AI技术研报

9898 点击 2026-06-14 10:38

神话级Claude 5，登顶了！

发布24小时，神话级Claude 5光速登顶！不仅创下AI史上最大分差纪录，更将GPT-5.5直接斩落马下。

来自主题: AI资讯

8740 点击 2026-06-11 15:26

37万次真实会话实测Agent榜单：GPT-5.5High第一，Claude最稳，真实干活能力看这五项核心指标

6月4日，Arena.ai发布Agent Arena排行榜，用373,431次真实会话的数据，给18个主流模型的Agent能力排了个座次。先看总榜。Agent Arena的排名依据是“净改进”（Net Improvement），用因果推断方法算出每个模型相对于随机基线的性能提升幅度。正值代表比随机选择更好，负值说明不如随机。

来自主题: AI技术研报

9443 点击 2026-06-07 14:38