AI资讯新闻榜单内容搜索-Arena

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Arena
刚刚,Gemini 2.5 Pro升级,成编程模型新王

刚刚,Gemini 2.5 Pro升级,成编程模型新王

刚刚,Gemini 2.5 Pro升级,成编程模型新王

你的默认编程模型是什么?或许可以换一换了。刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。其最大的进步是编程能力大幅提升,不仅在 LMArena 编程排行榜上名列第一,同时也在 WebDev Arena 排行榜上更是以显著优势超过了昔日霸

来自主题: AI资讯
11097 点击    2025-05-07 09:22
如何在LLM「排行榜幻象」中导航?2025AI界震撼大瓜,披露学术造假

如何在LLM「排行榜幻象」中导航?2025AI界震撼大瓜,披露学术造假

如何在LLM「排行榜幻象」中导航?2025AI界震撼大瓜,披露学术造假

你信任的AI排行榜,可能只是一场精心策划的骗局!震惊业界的Cohere Labs最新研究彻底撕破了Chatbot Arena这一所谓"黄金标准"的华丽面纱,揭露了科技巨头们如何肆无忌惮地操控评估系统、掠夺社区资源、扼杀开源创新。

来自主题: AI技术研报
9301 点击    2025-05-06 15:00
AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥

AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥

AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥

刚刚,LMArena陷入了巨大争议,斯坦福MIT和Ai2等的研究者联手发论文痛斥,这个排行榜已经被Meta等公司利用暗中操作排名!Karpathy也下场帮忙锤了一把。而LMArena官方立马回应:论文存在多处错误,指控不实。

来自主题: AI资讯
10401 点击    2025-05-01 14:07
速递|不站队的AI裁判要赚钱了?Chatbot Arena转型公司化运营且计划融资

速递|不站队的AI裁判要赚钱了?Chatbot Arena转型公司化运营且计划融资

速递|不站队的AI裁判要赚钱了?Chatbot Arena转型公司化运营且计划融资

作为学术研究项目,原加州大学伯克利分校的Chatbot Arena,其网站已成为访客试用新人工智能模型的热门平台,现正转型为独立公司。

来自主题: AI资讯
8140 点击    2025-04-21 16:37
美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

在数学推理中,大语言模型存在根本性局限:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报
10014 点击    2025-04-02 14:58
奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

为了进一步挑战AI系统,大家已经开始研究一些最困难的竞赛中的问题,特别是国际奥林匹克竞赛和算法挑战。

来自主题: AI技术研报
5809 点击    2025-04-01 09:49
谷歌大型推理模型曝光!击败Claude-3.7-Thinking

谷歌大型推理模型曝光!击败Claude-3.7-Thinking

谷歌大型推理模型曝光!击败Claude-3.7-Thinking

哎!最近推特上的网友在LMSYS Arena 发现了个泄漏的大模型 Nebula,效果据说特别好,打败了o1、o3mini、Claude3.7 Thinking等等模型:网友们通过询问和分析 API,发现这似乎是谷歌正在秘密演练的新推理模型!推测可能是 Google Gemini 2.0 Pro Thinking:

来自主题: AI资讯
9187 点击    2025-03-24 14:41
GPT-4.5智商测试94,登上LLM竞技场榜首!网友质疑黑幕,实测结果惊人

GPT-4.5智商测试94,登上LLM竞技场榜首!网友质疑黑幕,实测结果惊人

GPT-4.5智商测试94,登上LLM竞技场榜首!网友质疑黑幕,实测结果惊人

在知名AI排行榜LM Arena中,曾全班垫底的GPT-4.5竟一度拿下第一?甚至在数学、编程等领域表现优异,这反常的表现让网友们一度质疑:大模型竞技场莫非被LLM操纵了?不过网友们在实测后却惊讶发现,GPT-4.5的确情商爆表,不用推理就能理解人类的深层意图!

来自主题: AI资讯
7830 点击    2025-03-05 13:31