AI资讯新闻榜单内容搜索-幻觉

陶哲轩参赛，在这项极其严格的数学测试中，人类表现优于AI

就在外界惊呼“AI快要接管纯数学研究”之际，一场限制条件极其严格、并由30位数学家以匿名方式进行评审的数学测试，却揭开了AI数学能力的另一面：AI不仅会幻觉、会跳步骤，甚至还把数学家论文里的关键论证几乎原样照搬，却忘了注明引用。

来自主题: AI技术研报

8834 点击 2026-06-28 11:35

AI 创业一年复盘：第一次 Build 的成就感，是创业最大的幻觉

从 Founder Park 出去后，Muji 去新加坡深造了一年，然后以 COO 的身份加入了 Seede AI。

来自主题: AI资讯

8730 点击 2026-06-23 16:46

林俊旸推荐，Anthropic研究者自白：如何成为一位优秀研究者？

咱们 AI 领域，研究者既是一个身份，也是一种幻觉。

来自主题: AI资讯

9286 点击 2026-06-16 09:52

解锁Agent Swarm新潜力，openJiuwen又一力作：多智能体流网络

多智能体协作对于解决复杂问题虽然具有巨大优势，但是其架构本质上易出现错误传播，因为由不正确的工作流生成或单智能体幻觉输出引起的错误会沿着协作链蔓延，影响最终结果。

来自主题: AI技术研报

10177 点击 2026-06-09 09:59

规避文献幻觉，准确率提升13.2%！细粒度检索智能体 | ACL'26

为解决科研中对单篇文献深度解析的需求，佐治亚大学团队提出IntrAgent，专注单篇内容，避免大模型幻觉。通过段落排序与迭代阅读机制，精准提取实验细节与元数据。

来自主题: AI技术研报

10366 点击 2026-06-04 16:38

大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

随着大模型智能体深入渗透真实操作系统，一种全新的安全威胁悄然成型：行为越狱（Behavior Jailbreak）。现有安全基准只盯着模型「说了什么」，却对「做了什么」视而不见。新基准LITMUS是首个同时覆盖真实OS环境行为越狱、语义-物理双层验证与多攻击范式的完整评测体系，并首次系统量化了「执行幻觉」这一被整个评测社区忽视的致命盲区。

来自主题: AI技术研报

9898 点击 2026-06-03 14:33