混元开源PhoneBuddy-4B与5篇系列论文:多项手机Agent真机评测超过GPT-5.4
混元开源PhoneBuddy-4B与5篇系列论文:多项手机Agent真机评测超过GPT-5.4过去一年,Mobile/Phone-use Agent在各类评测榜单上进展很快。
搜索
过去一年,Mobile/Phone-use Agent在各类评测榜单上进展很快。
和 Codex、Claude Code 等 Coding Agent 沟通,很多时候就像站在许愿池边,对着池子里的王八扔硬币,嘴里念念有词,关键它还真给你兑现愿望。
今年2月,英伟达公开了一条内部AI工作流。
最近看到越来越多的一些国民级产品,开始把自己的一些能力,给封装称Skill或者MCP,来向大家开放,我觉得这个大家逐渐为Agent来做能力的趋势,越来越明显了。特别是前段时间瑞幸咖啡上线了AI开放平台,支持MCP、CLI、Skill三种接入方式。
最近,Anthropic 团队研究产品经理 Theodora(Theo)Chu 的一段演讲视频,引起了大家的注意。
写代码、跑实验、改项目、迭代方案,现在的AI智能体样样都能搞定。
DeNovoSWE是一个用于训练代码智能体从零生成完整仓库的数据集,包含4818个真实任务实例。它通过结构化文档和严格验证机制,帮助智能体掌握复杂系统构建能力,而不仅仅是修复代码。这为代码智能体迈向更高阶的软件工程任务提供了关键支持。
当 AI 智能体(Agent)从实验室走向真实应用,我们面对的安全问题也正在发生变化。
一个模型能模拟7种环境。
6 月 11 日凌晨,小米 MiMo 团队公开了一个叫 MiMo Code 的项目,定位是终端编程 Agent,MIT 协议开源。官方宣传重点有三处,14 天 5 人团队投入的“vibe coding”开发叙事、Claude Code 之上的 SWE-Bench Pro 跑分。以及“无限上下文”的记忆架构。