AI资讯新闻榜单内容搜索-模型蒸馏

担心蒸馏问题，Meta限用Claude Code、Codex

据外媒 The Information 报道：Meta 正在限制员工在 AI 模型构建中使用 Claude Code 和 Codex，原因是担心涉及模型蒸馏。 Meta 担心这些外部模型生成的内容，可能进入自家的训练数据或评测体系，从而引发所谓的模型蒸馏争议。

来自主题: AI资讯

9309 点击 2026-06-30 12:15

名师一定出高徒？清华团队最新揭秘：别再迷信大模型蒸馏的「免费午餐」

当下的大模型后训练（Post-training）pipeline 中，On-Policy Distillation（OPD）已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5，业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习（RL）稀疏的结果奖励，OPD 提供了密集的 Token 级别监督信号，看起来就像是一顿「免费的午餐」。

来自主题: AI技术研报

10061 点击 2026-05-14 09:59

腾讯AngelSlim升级，首个集LLM、VLM及语音多模态为一体的投机采样训练框架，推理速度飙升1.8倍

随着大模型步入规模化应用深水区，日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下，从量化、剪枝到模型蒸馏，各类压缩技术竞相涌现，但往往难以兼顾性能损耗与通用性。

来自主题: AI技术研报

10853 点击 2026-01-19 08:54

谢赛宁与Jaakkola团队重磅研究：无数据Flow Map蒸馏

前些天，一项「AI 传心术」的研究在技术圈炸开了锅：机器不用说话，直接抛过去一堆 Cache 就能交流。让人们直观感受到了「去语言化」的高效，也让机器之心那条相关推文狂揽 85 万浏览量。参阅报道《用「传心术」替代「对话」，清华大学联合无问芯穹、港中文等机构提出 Cache-to-Cache 模型通信新范式》。

来自主题: AI技术研报

8698 点击 2025-11-27 10:11

只要强化学习1/10成本！翁荔的Thinking Machines盯上了Qwen的黑科技

今天要讲的On-Policy Distillation（同策略/在线策略蒸馏）。这是一个Thinking Machines整的新活，这个新策略既有强化学习等在线策略方法的相关性和可靠性；又具备离线策略（Off-policy）方法的数据效率。

来自主题: AI资讯

9819 点击 2025-10-29 11:12

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，不发论文、爱发博客的 Thinking Machines Lab （以下简称 TML）再次更新，发布了一篇题为《在策略蒸馏》的博客。在策略蒸馏（on-policy distillation）是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时，TML 发现在策略蒸馏可以极低的成本超越其他方法。

来自主题: AI技术研报

9001 点击 2025-10-28 10:50