真机强化学习如何保证安全性?清华团队提出安全探索均衡机制
真机强化学习如何保证安全性?清华团队提出安全探索均衡机制近日清华大学于IEEE TPAMI发表论文,探讨了真机强化学习的安全性保障问题,提出了一套「安全探索均衡」新型机制,揭示了安全探索的理论最大边界,并攻克了其收敛性证明难题。
搜索
近日清华大学于IEEE TPAMI发表论文,探讨了真机强化学习的安全性保障问题,提出了一套「安全探索均衡」新型机制,揭示了安全探索的理论最大边界,并攻克了其收敛性证明难题。
「Mythos几小时攻破NSA」在英文社交媒体传疯了,近日,写出这句话的作者亲自站出来为它降温。
当 AI 智能体真正开始干活,它的每一次请求,都要经过一个你看不见的「中间人」。
就在刚刚,OpenAI 直接放出了满血版 GPT-5.5-Cyber。CyberGym 安全评测排行榜,GPT-5.5-Cyber 得分 85.6%,单模型最高分。Claude Mythos 5 第二,83.8%。Claude Opus 4.7 排末尾,73.1%。
AI写代码的风险隐藏在看似正确的代码中,可能引发数据泄露或资产损失。Narwhal AI Code Risks开源项目整理了真实案例、早期信号和典型风险路径,帮助开发者提前识别隐患,避免重蹈覆辙。
随着大语言模型逐步进入复杂推理、自动化研究和网络安全等高难度任务,传统的模型评测方式正在面临新的挑战。
刚刚,AI圈发生了一件很不寻常的事。Sam Altman、Dario Amodei、Demis Hassabis……一群平时打得最凶的人,把名字签在了同一封公开信上。他们联合呼吁美国国会:立法强制筛查所有合成DNA订单。
今年4-5月,AI信息安全迎来「水门事件级」窗口:攻方落地、守方应急、噪音失控、治理失灵同时暴发。Anthropic主动封印Claude Mythos,只因它强大到必须送进末日火山。
魔法打败魔法的「骚操作」,属实把我看乐了。
科技行业还在收缩,网络安全岗位却抢不到人,连OpenAI也开出44.5万美元高薪招揽安全人才。征兆4月已现:Anthropic的Mythos一个月就挖出超1万个高危漏洞。漏洞发现正被AI加速,网络安全的真正瓶颈,已转向验证与修补。