AI资讯新闻榜单内容搜索-不

ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

AI 的能力边界正在不断被刷新。从数学推理到代码生成，再到数字化白领，语言模型和语言智能体在诸多基准测试中已展现出超越人类专家的表现。一个看似顺理成章的判断早已成为共识：语言模型已经具备了扎实的语言理解和语义推理能力。然而，ACL 2026 Oral 的一项研究工作从一个更基础的层面重新审视了这个问题：语言模型真的理解（短语）语义吗？

来自主题: AI技术研报

8665 点击 2026-06-11 14:32

一篇综述看懂 agent context compression：怎么压、压什么、谁来压

LLM Agent 做长任务时，真正让人头疼的往往不是模型不会推理，而是上下文开始失控：前几步还很清楚，后面就忘约束、丢状态、重复试错，最后把任务跑成事故现场。

来自主题: AI技术研报

6780 点击 2026-06-11 14:32

MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

随着视频生成技术的发展，模型正在从短视频片段合成，向流式长视频生成演进。然而，仅仅做到视觉上的逼真是不够的。一个功能完备的视频世界模型，必须能够在长时序交互中保持稳定的内部状态，并遵循真实世界的物理定律与逻辑规则。

来自主题: AI技术研报

6985 点击 2026-06-11 14:30

大厂都在偷偷用的 AhaCreator 到底是啥

最近刷资讯的时候，我看到好几个海外大V都在推一个叫 AhaCreator 的产品，是一个 AI 达人接单平台，视频播放量和互动数据都还挺不错。

来自主题: AI资讯

7881 点击 2026-06-11 14:29

独家｜让AI接手真实操作，字节系团队、GUI Agent平台Core-Mate获数千万元融资

独家获悉，GUI Agent（图形用户界面智能体）执行平台「Core-Mate」近日宣布完成数千万人民币融资。核心团队主要来自字节跳动，成员在用户产品、业务增长和商业化落地中积累了系统经验。在团队看来，下一代 AI 产品的关键不只在模型能力，也在入口、场景和用户行为。

来自主题: AI资讯

9179 点击 2026-06-11 11:46

这个男人，用Janitor AI拿捏了1000万女性的深夜需求

一直以来，各大主流AI公司都严禁用户生成颜色内容，甚至连擦边球都不允许，以防外界对于AI产生什么不好的印象。

来自主题: AI资讯

5672 点击 2026-06-11 10:47

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

不聊概念，4 个真实工作场景跑一圈

来自主题: AI资讯

10440 点击 2026-06-11 10:18

AI交互新基准！蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight

想象一下，你问 AI 要一个饮食记录工具，它不再是回你一段文字建议，而是直接给你一个可以点击添加、统计热量的完整应用。人和 AI 的交互，正在从「读文字」走向「用应用」。

来自主题: AI技术研报

9060 点击 2026-06-11 10:17

Claude Fable 5提示词泄漏，6小时效果实测，真杀疯了？

Fable 5 刚上线，系统提示词就泄露：我读了一下这份提示词，有几个点比较关键：第一，Fable 给 Artifact 新增了持久化存储 API（window.storage）。Artifact 就是 Claude 用代码生成的独内容，比如 HTML 页面、React 组件等。以前 Artifact 不能保存数据，更像个一次性 demo。

来自主题: AI资讯

10022 点击 2026-06-10 20:07

Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

Claude刚刚发布的新模型Fable 5，很多人可能压根就用不上！有不少网友实测发现，Fable 5的安全护栏检测机制的触发几率似乎比官方宣称的不到5%严格得多。无论是普通编码任务。

来自主题: AI资讯

8856 点击 2026-06-10 20:06