AI资讯新闻榜单内容搜索-RL

「世界模型」究竟是什么？一文看懂其前世今生与百亿赌局

世界模型（World Model），想必你已经在很多场合听过这个术语了。它有时出现在视频生成领域，有时又出现在具身智能领域；它们的含义还有所差别，甚至看起来像是完全不同的概念。

来自主题: AI技术研报

6751 点击 2026-05-18 16:48

「具身大一统」不是口号：北京人形再度登顶WorldArena，拿下双冠王

最近，全球的网民都化身「监工」，围观了 Figure AI 的人形机器人直播在物流传送带上连续几十个小时，不间断地分拣包裹。

来自主题: AI技术研报

8822 点击 2026-05-18 10:24

当SFT遇上RL：基于样本学习阶段的动态策略优化机制

过去一段时间里，在围绕大模型推理能力增强的研究中，SFT 和 RL 是两类核心后训练范式 —— 前者稳定收敛快，能高效吸收高质量推理数据；后者更具探索性，有望推动模型实现复杂推理和分布外泛化。

来自主题: AI技术研报

6977 点击 2026-05-18 09:53

解决视频生成穿帮问题！浙大&微软3000条纯文本让模型理解3D

浙大联合微软亚洲研究院最新提出的World-R1，不改架构、不要3D数据，纯靠强化学习就让视频生成模型学会了“理解”三维世界。World-R1 的出发点很简单：预训练的视频模型里面已经有 3D 知识了，只是“沉睡”着。用强化学习把它叫醒就行。

来自主题: AI技术研报

8785 点击 2026-05-16 13:34

160行代码读懂LeCun的JEPA世界模型

LeCun念叨了好几年的JEPA，被160行代码给复刻了。GitHub上有个开发者，用极简单文件形式，用PyTorch把JEPA核心系列全部实现了一遍，从I-JEPA到LeWorldModel，五个变体一个没落，就为了——

来自主题: AI资讯

8518 点击 2026-05-15 13:33

ACL 2026｜打破推理同质化！阿里达摩院新作让RLVR从重复采样走向有效探索

I²B-LPO 是一个面向 RLVR 后训练的探索增强框架，通过改进 rollout 策略引导模型生成更多样化的推理轨迹，将探索行为从 “重复采样” 推进到 “在关键节点生成更具区分度的推理轨迹”，在多个数学基准上同时提升准确率与语义多样性，最高分别达 5.3% 和 7.4%。该工作接收于 ACL 2026 Main，来自阿里达摩院 - 智能决策团队。

来自主题: AI技术研报

9588 点击 2026-05-14 14:24

名师一定出高徒？清华团队最新揭秘：别再迷信大模型蒸馏的「免费午餐」

当下的大模型后训练（Post-training）pipeline 中，On-Policy Distillation（OPD）已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5，业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习（RL）稀疏的结果奖励，OPD 提供了密集的 Token 级别监督信号，看起来就像是一顿「免费的午餐」。

来自主题: AI技术研报

10067 点击 2026-05-14 09:59

上海AI Lab新研究：SFT能泛化，只要满足这三个条件

随着大模型后训练（Post-training）技术的发展，强化学习（RL）在提升模型推理能力方面的表现备受瞩目。

来自主题: AI技术研报

9398 点击 2026-05-13 09:59

一个框架，重塑具身研发流程：Dexbotic走向具身PyTorch

近日，原力灵机开源的具身智能原生框架 Dexbotic 宣布正式支持以 RLinf 作为其分布式强化学习后端。对具身智能开发者而言，这不仅是一次普通的工程适配，更意味着 VLA 模型研发中长期存在的「SFT 与 RL 割裂」问题，正在被真正打通。

来自主题: AI技术研报

9136 点击 2026-05-12 14:30

业界首个视觉世界模型综述：迈向更高智能的视觉范式

为了理清视觉与世界模型之间的深层联系，并为该领域的未来研究提供一张清晰的脉络图，北京交通大学靳潇杰、魏云超、赵耀等学者联合新加坡国立大学、腾讯、字节等国内外研究机构知名学者，发布了首篇视觉世界模型长篇综述：From Seeing to Knowing the World: A Survey of Vision World Models。

来自主题: AI技术研报

8156 点击 2026-05-10 10:40