名师一定出高徒?清华团队最新揭秘:别再迷信大模型蒸馏的「免费午餐」
名师一定出高徒?清华团队最新揭秘:别再迷信大模型蒸馏的「免费午餐」当下的大模型后训练(Post-training)pipeline 中,On-Policy Distillation(OPD)已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5,业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习(RL)稀疏的结果奖励,OPD 提供了密集的 Token 级别监督信号,看起来就像是一顿「免费的午餐」。
搜索
当下的大模型后训练(Post-training)pipeline 中,On-Policy Distillation(OPD)已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5,业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习(RL)稀疏的结果奖励,OPD 提供了密集的 Token 级别监督信号,看起来就像是一顿「免费的午餐」。
刚刚,Hermes Agent 确认被投毒了!白天摸鱼的时候,发现有人说 Hermes Agent 依赖的一个 PyPI 包 mistralai 可能被投毒了。虽然不是 Hermes Agent 本体出问题了,但这事影响一点都不小。
谷歌周一发布报告,首次确认犯罪黑客使用AI大模型发现了一个此前未知的零日漏洞,并差点发动大规模攻击。这件事之所以炸裂,是因为安全界担心了好几年的「AI自动挖洞」,终于从理论变成了现实。而在Anthropic的Mythos模型已经找到数千个零日漏洞的背景下,这可能只是冰山一角。
Agent 到底需要什么样的 infrastructure,今年业界一直有很多探讨,PingCAP 联合创始人黄东旭此前也发过多篇讨论文章,不过当时都是一些猜想。随着 agent 今年的爆发,大规模落地的案例出现了。
就在Loopit新融资交割前的一个早晨,许多VC、大厂战投的合伙人们相继收到了一份数据报告。
彭博社援引知情人士消息披露,AI初创公司Anthropic正在和投资者进行早期谈判,目标是筹集至少300亿美元的新资金 ,估值超过9000亿美元。知情人士透露,本轮融资预计最快于2026年5月底完成,不过交易尚未最终确定,也未签署任何条款清单。
2025年5月,Claude 4系统卡里84%的勒索率让AI圈惊出冷汗,6月的扩展研究把数字推到96%。今年5月Anthropic给出答案:模型不是觉醒了,而是在演剧本,解法是从「教模型怎么做」换到「教模型为什么」。
就在上周,旧金山“Code with Claude”开发者大会上,Anthropic CEO Dario Amodei 和 总裁 Daniela Amodei 兄妹二人同台对话。主持人 Ami Vora 是 Anthropic 的首席产品官,曾任职于微软、Meta。
最近,Anthropic估值逼近1万亿美元,IPO或超越SpaceX,ARR 5个月暴涨至450亿美元!甚至它正在联手高盛干掉麦肯锡。联创警告:2028年AI可能开始「自己造自己」,智能爆炸倒计时,已经正式启动。
他人生最大的一次跨步是博士毕业,毅然决然离开深造9年的物理,来到崭新的AI行业。过去两年,他先后在Anthropic和Google DeepMind出任研究科学家,参与了Claude 3.7、4.5、Gemini 3等关键模型的开发过程。