AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
GRPO过时了吗?

GRPO过时了吗?

GRPO过时了吗?

很多人认为这个数字不是随便挑的:美国政府向 Anthropic 下发出口管制指令、切断 Fable 5 与 Mythos 5 境外访问权限的那一刻,正是美国东部时间下午 5 点 21 分。「5 点 21」这个数字上的重复,被多家媒体解读为一次刻意设计的呼应。智谱选择在这个节点站出来,相当于当着全世界开发者的面说了一句话:你们担心的「模型随时可能被收回」,开源这边没有这个问题。

来自主题: AI资讯
8516 点击    2026-06-21 10:31
LLM终于学会推公式了!博世x清华推出FunctionEvolve:LLM-SRBench提升3.6倍,AI-Feynman满分

LLM终于学会推公式了!博世x清华推出FunctionEvolve:LLM-SRBench提升3.6倍,AI-Feynman满分

LLM终于学会推公式了!博世x清华推出FunctionEvolve:LLM-SRBench提升3.6倍,AI-Feynman满分

来自博世中央研究院与清华大学的研究人员提出 FunctionEvolve 框架,在两大基准测试上大幅刷新了这项任务的结果。在 LLM-SRBench 的 129 个合成科学方程任务上,FunctionEvolve 最终给出的公式在 55.8% 的任务上与真实公式等价(SA@1 = 72/129),是此前最好结果的 3.6 倍;

来自主题: AI技术研报
7521 点击    2026-06-20 10:24
碰撞暴降45.5%、200km 0接管!港大团队:自动驾驶真正的突破不在预训练,在后训练

碰撞暴降45.5%、200km 0接管!港大团队:自动驾驶真正的突破不在预训练,在后训练

碰撞暴降45.5%、200km 0接管!港大团队:自动驾驶真正的突破不在预训练,在后训练

香港大学李弘扬团队联合华为、上海创智学院及清华大学李升波教授团队,发表的最新论文World Engine: Towards the Era of Post-Training for Autonomous Driving给出了系统回答。

来自主题: AI技术研报
8076 点击    2026-06-20 10:24
ICML 2026|Agent通讯的「运营商」哪家强?UIUC团队发布ProtocolBench

ICML 2026|Agent通讯的「运营商」哪家强?UIUC团队发布ProtocolBench

ICML 2026|Agent通讯的「运营商」哪家强?UIUC团队发布ProtocolBench

多智能体系统正在从学界走向业界。 在 Coding、Research 等真实场景里,越来越多系统不再只依赖单个 agent,而是由多个 Agent 分工协作:有人负责规划,有人负责检索,有人调用工具,

来自主题: AI技术研报
8248 点击    2026-06-20 10:21
快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

本研究由快手科技语言大模型团队完成,核心作者吕民轩、梅铁桦、杜坦隆等。快手科技与中国科学院大学联合提出 GoLongRL,一套完全开源的长上下文强化学习后训练方案,包含 23K 样本 RLVR 数据集

来自主题: AI技术研报
7592 点击    2026-06-20 10:21
ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮,Holi-Spatial打造400万级空间多模态数据集

ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮,Holi-Spatial打造400万级空间多模态数据集

ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮,Holi-Spatial打造400万级空间多模态数据集

从原始视频出发,无需人工介入,自动生成 3D 重建、深度、2D mask、3D 框、实例描述、3D grounding 和空间问答。Holi-Spatial 试图把「空间智能」的数据生产,推进到自动化、可扩展的新阶段。

来自主题: AI技术研报
6519 点击    2026-06-19 10:16
ICML 2026 Spotlight | AI隐私训练时,那个最难控制的「阀门」能自动调节吗?

ICML 2026 Spotlight | AI隐私训练时,那个最难控制的「阀门」能自动调节吗?

ICML 2026 Spotlight | AI隐私训练时,那个最难控制的「阀门」能自动调节吗?

近日,来自英国南安普顿大学(University of Southampton)和广州大学的研究者团队提出 SlaClip,一种用于差分隐私随机梯度下降(DP-SGD)[1] 的自适应梯度剪裁方法。

来自主题: AI技术研报
7966 点击    2026-06-19 09:24
腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作

腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作

腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作

大语言模型的RL技术已日趋成熟,多模态生成模型的强化学习训练却仍在“各自为战”——图像扩散模型一套流程、视频生成另一套标准、VLM和LLM又有不同的技术栈。

来自主题: AI技术研报
7194 点击    2026-06-18 11:25
蚂蚁EGSS算法破解Test Time Scaling困局 | ACL 2026

蚂蚁EGSS算法破解Test Time Scaling困局 | ACL 2026

蚂蚁EGSS算法破解Test Time Scaling困局 | ACL 2026

更聪明的计算远比更多的计算更有效。

来自主题: AI技术研报
6648 点击    2026-06-17 14:06