TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析
TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析现实世界中的强化学习在应用过程中也面临着巨大的挑战,尤其是如何保证系统的安全性。为了解决这一问题,安全强化学习(Safe Reinforcement Learning, Safe RL)应运而生,成为当前学术界和工业界关注的焦点。
现实世界中的强化学习在应用过程中也面临着巨大的挑战,尤其是如何保证系统的安全性。为了解决这一问题,安全强化学习(Safe Reinforcement Learning, Safe RL)应运而生,成为当前学术界和工业界关注的焦点。
LLM说起谎来,如今是愈发炉火纯青了。 最近有用户发现,OpenAI o1在思考过程中明确地表示,自己意识到由于政策原因,不能透露内部的思维链。
视觉 / 激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务,用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、控制导航等领域。最近,多模态里程计越来越受到关注,因为它可以利用不同模态的互补信息,并对非对称传感器退化具有很强的鲁棒性。
AI的能力终于癫成了和这个世界匹配的样子——来自UCB等机构的研究者们用GPT-4o,开发出了一个「AI预言家」。
本文作者来自于清华大学电子工程系,北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。其中第一作者张瑞泽为清华大学硕士,主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。
HCI(人机交互),作为一个新名词被国人慢慢熟悉,也就是这几年的事情。很多同学也想着往HCI转,但最近一篇文《HCI已经成为夕阳专业》的文章,顿时让不少人感到一阵焦虑。担心AI的发展是否会让这个很新的领域,受到严重的冲击。
过去几年间,Transformer 架构已经取得了巨大的成功,同时其也衍生出了大量变体,比如擅长处理视觉任务的 Vision Transformer(ViT)。本文要介绍的 Body Transformer(BoT) 则是非常适合机器人策略学习的 Transformer 变体。
Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。
姚班大神陈立杰最新去向现已明朗:2025年秋季起,任加州大学伯克利分校EECS助理教授。
事实证明,扩散模型不仅能用于生成图像和视频,也能用于合成新程序。