CVPR2026 | 鬼手想点谁就点谁?LaSM让GUI智能体把注意力「收回来」
CVPR2026 | 鬼手想点谁就点谁?LaSM让GUI智能体把注意力「收回来」如果把手机屏幕想象成一个舞台,GUI 智能体就是台下那个 “被授权动手” 的人:它能看懂屏幕上的按钮、输入框和弹窗,能按你的指令去点、去滑、去输入。
搜索
如果把手机屏幕想象成一个舞台,GUI 智能体就是台下那个 “被授权动手” 的人:它能看懂屏幕上的按钮、输入框和弹窗,能按你的指令去点、去滑、去输入。
研究者用特制雨伞干扰无人机视觉系统,让其误判目标在远去,从而失控俯冲。FlyTrap攻击无需信号干扰,仅靠物理图案就能欺骗多款商用无人机,实现静默捕获或击毁。实验显示,物理闭环攻击成功率超60%,且对新人物、新场景均有强泛化能力。这项研究揭示了AI感知系统的重大安全隐患,警示我们:视觉安全正成为智能设备的阿喀琉斯之踵。
真赞叹啊,一行指令,而且,速度还贼快!
今天《纽约客》发表了历时 18 个月的调查报道,首次披露 OpenAI 首席科学家 Ilya Sutskever 在 2023 年秋天汇编的 70 页内部备忘录,以及 Anthropic 联合创始人 Dario Amodei 保留多年的 200 余页私人笔记。
Claude一夜翻车!4月6日的新功能刚一上线,就遭遇大规模宕机,开发者怒喷「神坛崩塌」,性能退化降智、token狂烧,prompt封杀更是惹众怒,Anthropic到底怎么了?
在使用体验上,龙虾的另一大特色是“活人感极强”。以往的AI,用户不搭话,它就永远沉默;而龙虾的机制则是「心跳」:每隔30秒,自己给自己发一条消息,反思有没有事情做,有的话就去做,没有的话就“没事,继续睡”。当然,这种活人感的代价,是燃烧的Tokens。
今天,扣子2.5 正式上线,迎来全新升级。 一句话理解升级后的扣子:让更强大的 Claw 帮你干活,在更广阔的 Agent World 里任你探索。在过去的一段时间中,Agent 逐渐成为更多人的生产力伙伴—— 7×24 小时完成任务、自主调用工具、搞定复杂的编程,在真实的业务场景中独立完成复杂工作。
千寻智能又一次把融资节奏拉满。
上次 0.83 那条路没了,现在还能怎么便宜开 GPT Plus
一家叫 Rallies Arena 的团队,6 个月前干了一件事:给 6 个主流大模型各发了 10 万美元,让它们在真实股票市场上自己做研究、自己下单、自己管仓位。
联想版“龙虾”来了:预装海量Skill、跨端无缝接力。
最近三个月,我用 Claude Code Vibe Coding 了几个项目,非常有意思,写篇文章记录一下。
就在大家都急头白脸地等待DeepSeek-V4的时候,冷不丁一篇新论文引起了网友们的注意—— 提出新稀疏注意力机制HISA(分层索引稀疏注意力),突破64K上下文的索引瓶颈,相比DeepSeek正在用的DSA(DeepSeek Sparse Attention)提速2-4倍。
一段与ChatGPT的普通聊天,揭开韩国汽车旅馆连环谋杀案真相。
生成式模型当检索器大材小用效果还不好?
OpenAI 加快了迈向下一 AI 阶段的进程。
刚刚,Anthropic年收入首超OpenAI!同时就在今天,一份与谷歌、博通最新合作,将在2027年上线3.5 GW全新TPU集群。这批史诗级的算力,预计从2027年开始陆续上线。
通过一晚上的睡眠,AI 模型就能监控最多 130 种疾病。
OpenAI Codex 团队的产品规格文档只有 10 个要点。不是说每个功能的文档只有 10 个要点,而是整个产品的 spec 就这么多。设计师写的代码量超过了六个月前工程师写的。50 到 100 人的团队,直到最近才有了第二个产品经理。
《读佳》了解到,支付宝正在内测名为“aclaw”的AI产品,定位为“不懂代码,也能云养虾”。内嵌在支付宝APP中,这款新品的亮相,也让支付宝在 AI 领域的布局再添新动作。
老粉都知道,我们团队一直坚持“小而美”,满打满算也才九个人,所以腾不出多余的人手来负责美工工作。
许多长期与文字和代码打交道的创作者,应该对 Obsidian 这款软件并不陌生。作为目前全球最具影响力的本地化 Markdown 笔记应用之一,它凭借独树一帜的知识图谱和开源生态,在知名度与用户忠诚度上,已然能与 Notion 分庭抗礼。
大模型技术正在经历一场从 “对话助手” 向 “自主智能体(Agent)” 的深刻演进。智能体不再局限于被动地理解与生成,而是具备了多步规划、工具调用、长期记忆与管理物理 / 数字世界的能力,正逐步深度嵌入企业侧的核心业务流程。这意味着,AI 的边界已从虚拟屏幕的对话框,正式延伸到了真实的生产系统中。
绝了,真的绝了。 Copilot 开始自作主张,在 GitHub 代码仓库里加广告了……
最近,飞书、钉钉、企业微信接连推出 CLI,智能体生态战役再次打响。
Harness 应由业务驱动。
人形机器人全身灵巧操作是通向通用具身智能的核心目标之一。在这一愿景下,机器人不仅需要双臂与高自由度多指灵巧手的精细协调,还需要与全身位姿(如行走、弯腰)进行动态配合。
雷军和马云在具身智能赛道罕见"握手"。
Google 最新发布的 Gemma-4-31B 基础模型出现了越狱版本,安全限制被完全移除。这个名为"Gemma-4-31B-JANG_4M-CRACK"的模型已经公开发布在 Hugging Face 上,任何人都可以下载使用。
一个 X 用户的帖子被围观数十万次。他在帖子里放了一个视频,讲述自己如何在 iPhone 上本地运行 Gemma 4,包括处理图片、音频、控制手电筒开关。他表示,Gemma 4 速度快得惊人,感觉像魔法一样。