ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步
ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步在可验证强化学习(RLVR)的推动下,大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中,LLM 往往需要结合外部工具进行多轮交互,现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。
搜索
在可验证强化学习(RLVR)的推动下,大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中,LLM 往往需要结合外部工具进行多轮交互,现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。
爱在西元前的歌词里唱到:「当古文明只剩下难解的语言,传说就成了永垂不朽的诗篇。」如今借助DeepMind推出的生成式AI工具Aeneas,考古学家面对古代碑文不再抓瞎了。
日前有网友发现沉浸式翻译扩展程序的部分用户数据暴露在互联网上,这些数据包含部分敏感内容例如加密货币钱包私钥甚至是企业 / 机构的商业合同等。严格来说此次问题并非安全漏洞而是沉浸式翻译提供的功能存在缺陷,即没有对快照链接进行保护导致搜索引擎爬虫可以直接抓取内容并将其放置互联网上公开索引。
上上周我们一起测试了六款视频Agent, Agent们手里有一堆音频、视频、剪辑、生图等工具,由他们决定调用顺序成片
世界顶级风投 a16z 这两年已经成为全球最活跃AI投资者,他们对于行业的判断非常准确。我在 X 上关注了很多 a16z 的投资人,这样能方便第一时间了解行业最新的趋势是什么,以及有哪些我没注意到的好 AI 应用。
强化学习+任意一张牌,往往就是王炸。专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。
FlowSpeech的开发初衷源于一个感人故事。一位年过八旬的美国老人因长期病痛失去说话能力,但通过AI工具ListenHub继续与他人分享自己的人生经历。这个真实案例启发了开发团队,促使他们研发出专门针对书面语向口语转换的TTS技术解决方案。
自 2021 年夏季 GitHub Copilot 以预览版问世 以来,编程助手产品呈现爆发式增长。这类工具最初被用作增强型代码补全工具,而 Cursor、Windsurf 等产品则迅速转向了 Agent 交互模式:通过自然语言指令触发,助手能自主执行修改代码文件、运行终端命令等操作。
4月底我们曾经在《融了3个亿的张月光,就做出了个“AI播客播放器”?》选题中观察过由前妙鸭相机产品负责人张月光开发的AI播客产品ChatPods,当时我们认为,想用AI做成一个泛播客工具/平台比较困难。而最近,又有AI领域的知名从业者离职创业,选择的方向恰恰也是AI播客。
华为版本CUDA,全面开源开放! 最新消息,华为宣布为其昇腾AI GPU开源其CANN软件工具包。