长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛
长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛想训练能自动操作手机的GUI(图形用户界面)智能体,总会遇到两难困境:
搜索
想训练能自动操作手机的GUI(图形用户界面)智能体,总会遇到两难困境:
大家都会以为,AI 会重构电商,甚至会完成自身的闭环交易,取代传统电商。但事实看起来却不是这样,ChatGPT 上线的 checkout 功能并没有获得预期的成功,Shopify、Amazon 这些电商平台依旧活得很好。
OpenAI 于 6 月 26 日开始有限预览 GPT-5.6 系列模型。新系列包括三款模型:旗舰模型 Sol、均衡型模型 Terra,以及主打低成本和高速度的 Luna。根据 OpenAI 官方介绍,Sol 是 GPT-5.6 系列中能力最强的模型,重点提升了编码、生物工作流、网络安全和长周期智能体任务表现。
太酷了,这个 Agent 的体验。感觉这是最近除了 Codex 外,最让我惊喜的 Agent 产品了。今天想和大家分享一下。
我们获悉 前飞书产品VP施凯文联同上海交大AP张倬胜开启Agent创业。多位知情人士透露(综合):其创业公司名为界面之上,偏交互侧创新;也有人透露是个人助手OS方向,首轮获锦秋、红杉等机构投资,估值高达5亿美元
写代码、跑实验、改项目、迭代方案,现在的AI智能体样样都能搞定。
DeNovoSWE是一个用于训练代码智能体从零生成完整仓库的数据集,包含4818个真实任务实例。它通过结构化文档和严格验证机制,帮助智能体掌握复杂系统构建能力,而不仅仅是修复代码。这为代码智能体迈向更高阶的软件工程任务提供了关键支持。
当 AI 智能体(Agent)从实验室走向真实应用,我们面对的安全问题也正在发生变化。
一个模型能模拟7种环境。
豆包大模型2.1 Pro正式发布。但字节这次没有像某些厂商那样疯狂堆参数、刷榜单,而是把刀锋对准了一个更硬核的方向:让AI真正能“干活” 。作为本次大会发布的主力模型,豆包2.1 Pro 在 Coding(编程)、Agent(智能体)、VLM(视觉语言模型)三大核心方向实现能力跃升,多项评测表现优于Claude Opus 4.6