DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌“人类最后的考试”首次突破30分,还是咱国内团队干的! 该测试集是出了名的超难,刚推出时无模型得分能超过10分。
“人类最后的考试”首次突破30分,还是咱国内团队干的! 该测试集是出了名的超难,刚推出时无模型得分能超过10分。
编者按:vibe coding不是编程的终点,而是Context Engineering驱动的协作智能的起点。那些能够最早理解并应用这种整合视角的人,将在下一轮技术变革中获得决定性优势。
如果你想知道当自己不再是顶级智慧生物时,生活是什么样子,就去问问一只鸡吧。
AI辅助的中国论文工厂正利用美国NHANES公共数据库大规模生产垃圾论文。这些论文研究单一变量与疾病关联,高度重复且方法雷同,数据疑被操纵,结果常假阳性。
在 AI 领域,我们对模型的期待总是既要、又要、还要:模型要强,速度要快,成本还要低。但实际应用时,高质量的向量表征往往意味着庞大的数据体积,既拖慢检索速度,也推高存储和内存消耗。
现在的世界模型,值得批判。 我们知道,大语言模型(LLM)是通过预测对话的下一个单词的形式产生输出的。由此产生的对话、推理甚至创作能力已经接近人类智力水平。
Mamba一作最新大发长文! 主题只有一个,即探讨两种主流序列模型——状态空间模型(SSMs)和Transformer模型的权衡之术。
总部位于洛杉矶的人工智能视频生成初创公司Moonvalley 团队认为,仅靠文本提示无法完成电影制作。
来自加州大学河滨分校(UC Riverside)、密歇根大学(University of Michigan)、威斯康星大学麦迪逊分校(University of Wisconsin–Madison)、德州农工大学(Texas A&M University)的团队在 ICCV 2025 发表首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架 UniOcc。
论文提出一种AI自我反思方法:通过反思错误原因、重试任务、奖励成功反思来优化训练。
在AI席卷下,CS专业不再是稳定职业保障。Y Combinator的圆桌探讨揭示,面对颠倒的时代,无论大学生还是在职者,都需思考:在AI时代,什么能力最重要,以及如何选择?
我们先给不知道剧情的朋友回归一下事件事件线:2025年6月30日,华为宣布开源盘古7B稠密和72B混合专家模型。然而发布会后,网络上出现华为盘古大模型抄袭的言论。7月5日,诺亚方舟实验室发布《关于盘古大模型开源代码相关讨论的声明》。本以为官方已经出来站台,这件事到此为止。
据彭博社援引知情人士消息,法国AI初创公司 Mistral 正在与多方洽谈新一轮融资,金额可能高达10亿美元。本轮融资将以股权形式进行,投资方包括阿布扎比主权基金 MGX。
今日,昆仑万维重磅开源多模态推理模型Skywork-R1V 3.0,这是其迄今最强多模态推理模型,参数规模为38B,在多个多模态推理基准测试中取得了开源最佳(SOTA)性能。
Cluely 和 Roy Lee,想必大家对这两个名字已经不陌生了。
2025 年已经过半, 文本生成大模型是否已经进入下半场了? OpenAI 完全不重视 API 市场? Grok3 根本没人用? 「大模型战」未来的走向如何?
AI 助手,向着「低调实用」方向发展。几周前,我为了一份行业深度文章的撰写,在堆积如山的数据分析文件和浏览器标签页中挣扎了整整两天。
今天,飞书终于又开了一年一次的飞书大会。 作为飞书的深度用户和老基友,我自然是也来到了现场。
ChatGPT的对话流畅性、Gemini的多模态能力、DeepSeek的长上下文分析……
NCAL是一种新的个性化学习方法,它通过优化文本嵌入的分布来解决教育数据中常见的长尾分布问题,从而提高模型对少数类别的处理能力。
学好数理化,走遍天下都不怕! 这一点这在大语言模型身上也不例外。
智元一夜改写了具身智能发展路径和格局。没错,就是稚晖君联合创办的具身智能机器人公司——智元机器人,最新完成了一次轰动外界的操盘。
你有没有想过,为什么那些最聪明的AI工程师要把80%的时间浪费在修复数据基础设施上,而不是构建真正改变世界的AI应用?这个看似不合理的现象,正是Eventual创始人Sammy Sidhu和Jay Chia在Lyft自动驾驶部门工作时亲身经历的痛苦。
DeckSpeed 彻底改变了制作 PPT 的起点,只需一句话描述需求,AI 即可生成逻辑严谨、结构完整的整套演示内容,覆盖文案、图示排版,无需模板、无需手动编辑,即可收获个性化定制的 PPT。
《智能涌现》独家获悉,具身智能公司「星海图」近日接连完成A4轮及A5轮战略融资,两轮合计融资金额超过1亿美元。
大多数人还在输入一句“帮我修这个 bug”,然后疑惑为什么 Claude 回答得四不像、效率低得离谱。 而另一些“老手”已经用上了 slash command,把一个原本要手动操作 45 分钟的流程,缩短到 2 分钟内自动完成。
香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方:通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一众商业大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。
近日,全球四大会计师事务所之一毕马威中国发布了《首届健康科技50》报告。
2025年,全球具身智能赛道爆火,VLA模型成为了绝对的C位。从美国RT-2的开创性突破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。
如果你正在做出海业务,无论是做跨境电商、独立站,还是SaaS软件,你一定逃不开一个核心问题:如何低成本地获取海外精准流量?