AI资讯新闻榜单内容搜索-强化学习

补齐OpenClaw进化拼图！AReaL v1.0开源，智能体强化学习「一键接入」

2026 开年已两个月，Agent 依然是全球最引人注目的 AI 赛道之一。OpenClaw（原 Clawbot）掀起的那波 Agent 热潮至今仍在发酵，甚至让「一人公司」概念第一次真正有了落地的可能性。

来自主题: AI技术研报

10584 点击 2026-03-04 13:46

告别纯奖励试错！二次尝试+反思蒸馏，复杂任务提升81%

强化学习已经成为大模型后训练阶段的核心方法之一，但一个长期存在的难题始终没有真正解决：现实环境中的反馈往往稀疏且延迟，模型很难从简单的奖励信号中推断出应该如何调整行为。

来自主题: AI技术研报

9069 点击 2026-03-03 14:17

人脑细胞做成芯片打Doom！20万活体神经元自己探路杀敌，学习效率碾压深度强化学习

20万人类脑细胞组成“脑PU”，学会了玩经典游戏《毁灭战士》。这些活体神经元通过强化学习学会了找到敌人、开枪射击、转身移动，甚至弹药管理。

来自主题: AI资讯

9061 点击 2026-03-02 14:35

ICLR 2026｜在「想象」中进化的机器人：港科大×字节跳动Seed提出WMPO，在世界模型中进行VLA强化学习

香港科技大学 PEI-Lab 与字节跳动 Seed 团队近期提出的 WMPO（World Model-based Policy Optimization），正是这样一种让具身智能在 “想象中训练” 的新范式。该方法无需在真实机器人上进行大规模强化学习交互，却能显著提升策略性能，甚至涌现出自我纠错（Self-correction）行为。

来自主题: AI技术研报

9264 点击 2026-03-02 14:31

首次证实RL能让3D模型学会推理，复杂文本描述下生成质量跃升！

当GRPO让大模型在数学、代码推理上实现质变，研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生，并被CVPR 2026接收。该研究不只是简单移植2D经验，而是针对3D生成的独特挑战，从奖励设计、算法选择、评测基准到训练范式，做了一套完整的系统性探索。

来自主题: AI技术研报

8053 点击 2026-02-27 10:28

ICLR2026 Oral | 当情感识别不再是分类题：EmotionThinker 让 SpeechLLM 学会“解释情绪”

SpeechLLM 是否具备像人类一样解释 “为什么” 做出情绪判断的能力？为此，研究团队提出了EmotionThinker—— 首个面向可解释情感推理（Explainable Emotion Reasoning）的强化学习框架，尝试将 SER 从 “分类任务” 提升为 “多模态证据驱动的推理任务”。

来自主题: AI技术研报

9130 点击 2026-02-25 14:28