10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化,唯有在熵增符合其利益时方会发生——Max Planck
搜索
Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化,唯有在熵增符合其利益时方会发生——Max Planck
您有没有发现,现在市面上的AI角色扮演的Agent总有种「隔靴搔痒」的感觉?用户和AI聊天时,AI虽然能说出符合角色设定的话,但总觉得缺了点什么——就像演员在背台词,而不是真的在思考。感觉很假,也很奇怪。
经验教训,多吸取一点也不为过,去年在日本,我随手翻了翻酒店送的《读卖新闻》,发现报纸里连篇累牍都在介绍AIGC。
人形机器人、无人机、智能汽车这三个领域将成为空间智能的爆发点。对于具身智能(Embodied Intelligence),真实的物理环境就是最好的老师
近年来,AI的迅猛发展也使科研范式发生了根本性变革。
如果你面前有两个AI助手:一个能力超强却总爱“离经叛道”,另一个规规矩矩却经常“答非所问”,你会怎么选?
QuestMobile 在 5 月发布的中国市场报告中指出,今年 3 月 AI 原生 APP 活跃用户数突破 2.7 亿,同比增长 536.8%,但也形成了截然不同的梯队,可以观察到明显的「赢者通吃」
如果要问近期最火热的AI硬件品类是什么,AI眼镜一定榜上有名。
近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果: 在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。
近日,新一届 ACM 博士论文奖正式公布。
谷歌深夜携全新Gemini 2.5 Pro强势归来,仅用一个月碾压旧版Gemini 2.5。数学、编程、推理全面封神,稳坐所有榜单第一。
今年 4 月中旬,特斯拉采购团队来到宁波一家供应商的厂区,做人形机器人量产前的最后一次审厂。门口一辆车上,盯梢的人对上了车牌,拍下照片发给 “上线”:“特斯拉来审厂了。”
科学家用AI重构《死海古卷》时间线,震撼圈内!最新研究显示,《但以理书》《传道书》部分古卷实际成书更早,甚至揭示了圣经作者线索。AI模型Enoch结合碳14定年与笔迹分析,首创AI定年方法,大幅超越传统古文字学。
从电话录音机到播客,从语音助手到虚拟主播,语音技术在过去几十年里经历了从“工具型服务”向“内容型产品”的演化。大模型的快速崛起让语音技术的发展进入了一个新的跃迁周期,人们对语音产品的期待从听懂”内容“逐渐跃迁到听懂”情绪“。
孩子王也进军AI陪伴玩具赛道,推出自研AI陪伴玩偶「啊贝贝」。「啊贝贝和TA的朋友们」是孩子王自研的智能情感伙伴系列AI玩偶,这也意味着母婴零售巨头正从渠道商向“科技+情感服务”供应商转型。
长时间没消息的黑森林工作室憋了个大的,发布了生成式流匹配模型 FLUX Kontext。
在人与AI高度协同的时代,只有大量复杂UI界面的应用将会被淘汰。
大模型推理,无疑是当下最受热议的科技话题之一。
日记应用 Rosebud 已获得 600 万美元种子轮融资,该应用致力于通过 AI 技术完善其作为自我反思与个人成长导师的功能。
Hi,我是银海。 你身边的AI产品经理,陪你解决每一个真实问题。
大型语言模型 (LLM) 的发展日新月异,但实时「内化」与时俱进的知识仍然是一项挑战。如何让模型在面对复杂的知识密集型问题时,能够自主决策获取外部知识的策略?
金融与会计服务初创企业 Simetrik 获得由高盛领投的 3000 万美元新融资。此次融资是对该公司2024 年 2 月披露的 B 轮融资的追加。当时该公司已从由高盛资产管理的,成长型股票团队领投的投资者处筹集了 5500 万美元。
清华与蚂蚁联合开源AReaL-boba²,实现全异步强化学习训练系统,有效解耦模型生成与训练流程,GPU利用率大幅提升。14B模型在多个代码基准测试中达到SOTA,性能接近235B模型。异步RL训练上大分!
OpenAI 的一次大收购,正在刺激整个 AI Coding 工具市场的神经。
World Labs 是由著名 AI 专家、斯坦福大学教授李飞飞于 2024 年创办的初创公司,致力于开发具备“空间智能”的下一代 AI 系统。
大家好,这两个月我完成了一款产品——Videa。虽然过去一年,我做了很多东西,但是部分是套壳,部分是把别人的想法做出来,真正我一直想做的,其实是一款借助AI创作短视频的产品。现在,我把它做出来了。
随着大型语言模型(LLM)技术的不断发展,Chain-of-Thought(CoT) 等推理增强方法被提出,以期提升模型在数学题解、逻辑问答等复杂任务中的表现,并通过引导模型逐步思考,有效提高了模型准确率。
这个系列主要是自己想多看一些海外做的比较成功的AI产品,尝试拆解一下他们的冷启动,SEO,增长策略,当然还有产品层面,看看能不能从他们身上学到一些东西,尤其是对于独立开发者以及中小团队来说有没有借鉴的地方。
1、深度研究实际场景 2、深度研究是什么,它用了什么能力? 3、在深度研究上,AI 为啥比人强这么多? 4、哪些问题,值得用深度研究方式来做? 5、怎样用好深度研究,保持结果的稳定性? 6、各类深度研究产品的特点以及使用技巧?
Cursor 1.0正式发布,此次更新推出了多项重磅功能,无论你是开发者还是数据科学家,Cursor 1.0都将让你的工作更高效、更智能