稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow
稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow本文介绍了一种用高数据效率强化学习算法 SAC 训练流策略的新方案,可以端到端优化真实的流策略,而无需采用替代目标或者策略蒸馏。SAC FLow 的核心思想是把流策略视作一个 residual RNN,再用 GRU 门控和 Transformer Decoder 两套速度参数化。
本文介绍了一种用高数据效率强化学习算法 SAC 训练流策略的新方案,可以端到端优化真实的流策略,而无需采用替代目标或者策略蒸馏。SAC FLow 的核心思想是把流策略视作一个 residual RNN,再用 GRU 门控和 Transformer Decoder 两套速度参数化。
接下来,流量分配规则、购物方式都要变了。而何为 AI 电商、又该如何落地,在内部乃至整个行业都没有清晰的路径。据《晚点》此前报道,2023 年淘宝天猫内部一度有近 20 个团队在摸索 AI 业务,同质化问题严重。
90%的开发者都在用AI,却只有24%真正信任它!DORA 2025报告揭示:AI不是万能解药,而是放大镜。它让强者飞升,让弱者溃败。七种团队人设、七项关键能力,决定了你的团队,是进化还是崩塌。
HR拿AI筛简历,求职者埋代码陷阱,双方疯狂互坑。
黄仁勋大家都见得多了,但你见过他女儿讲具身智能吗?这不,黄仁勋女儿Madison Huang首次公开亮相直播访谈节目,作为英伟达Omniverse与物理AI高级总监,与光轮智能CEO谢晨,以及光轮智能增长负责人穆斯塔法一起,对“如何缩小机器人在虚拟与现实之间的差距”展开深刻探讨。
AI拍长视频不再是难事!LongLive通过实时交互生成流畅画面,解决了传统方法的卡顿、不连贯等痛点,让普通人都能轻松拍大片。无论是15秒短片还是240秒长片,画面连贯、节奏流畅,让创作变得像打字一样简单。
在机器人与自动驾驶领域,由强化学习训练的控制策略普遍存在控制动作不平滑的问题。这种高频的动作震荡不仅会加剧硬件磨损、导致系统过热,更会在真实世界的复杂扰动下引发系统失稳,是阻碍强化学习走向现实应用的关键挑战。
在今年的国际计算机视觉大会(ICCV 2025)上,来自浙江大学、香港中文大学、上海交通大学和上海人工智能实验室的研究人员联合提出了第一人称联合预测智能体 EgoAgent。
从ChatGPT到DeepSeek,强化学习(Reinforcement Learning, RL)已成为大语言模型(LLM)后训练的关键一环。
OpenAI新研究团队,刚刚曝光了——OpenAI for Science,致力于构建加速数学和物理领域新发现的人工智能系统。