AI资讯新闻榜单内容搜索-AI测谎

700多个「坏模型」喂出AI测谎仪？Anthropic审计神器让AI自曝黑料

Anthropic让AI开口「招供」了。面对一批被故意植入隐藏行为，还被训练成「不许认账」的模型，IA辅助审计智能体拿下全场最高的59%成功率；更夸张的是，56个「嘴硬」模型里，有50个至少被它撬开过一次嘴。AI安全审计的游戏规则，悄悄变了。

来自主题: AI资讯

8115 点击 2026-05-05 13:49

OpenAI的最新研究揭示了一个反直觉的真相：越强大的推理模型，越管不住自己的「脑子」。在CoT-Control套件测试的13款前沿模型中，DeepSeek R1控制自身思维链的成功率仅为0.1%，Claude Sonnet 4.5也只有2.7%。

来自主题: AI资讯

9523 点击 2026-03-09 15:08