苹果再发论文:精准定位LLM幻觉,GPT-5、o3都办不到
苹果再发论文:精准定位LLM幻觉,GPT-5、o3都办不到论文提出的方法名为 RL4HS,它使用了片段级奖励(span-level rewards)和类别感知的 GRPO(Class-Aware Group Relative Policy Optimization),从而避免模型偷懒、只输出无错误预测。
来自主题: AI资讯
9860 点击 2025-10-07 22:11
搜索
论文提出的方法名为 RL4HS,它使用了片段级奖励(span-level rewards)和类别感知的 GRPO(Class-Aware Group Relative Policy Optimization),从而避免模型偷懒、只输出无错误预测。