AI资讯新闻榜单内容搜索-APO

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: APO
ICML 2026 | 将多教师冲突转化为动态约束,破解多模态大模型推理对齐难题

ICML 2026 | 将多教师冲突转化为动态约束,破解多模态大模型推理对齐难题

ICML 2026 | 将多教师冲突转化为动态约束,破解多模态大模型推理对齐难题

在多模态大模型(MLLM)快速发展的浪潮中,融合多模型 “集体智慧” 已成为提升模型性能的关键路径,并催生了多教师知识蒸馏这一主流范式。然而,不同来源的教师模型在架构与优化上的差异,其在相似推理过程中呈现出不稳定甚至偏移的认知轨迹,即 “概念漂移”(Concept Drift)。

来自主题: AI技术研报
7537 点击    2026-05-14 09:30
如何让AI走向更高质量的共情?自然选择两项开源研究提供新路径

如何让AI走向更高质量的共情?自然选择两项开源研究提供新路径

如何让AI走向更高质量的共情?自然选择两项开源研究提供新路径

现如今,大模型越来越擅长在单轮对话中生成温柔体贴、情绪价值拉满的文字,然而,我们或许会怀疑:在一句句「高情商回复」的背后,模型是否真正理解了什么是共情。

来自主题: AI技术研报
7947 点击    2026-03-18 13:53
硅谷豪赌算力烧到停电,中国团队反向出击!这一刀,直接砍碎Scaling Law

硅谷豪赌算力烧到停电,中国团队反向出击!这一刀,直接砍碎Scaling Law

硅谷豪赌算力烧到停电,中国团队反向出击!这一刀,直接砍碎Scaling Law

思考token在精不在多。Yuan 3.0 Flash用RAPO+RIRM双杀过度思考,推理token砍75%,网友们惊呼:这就是下一代AI模型的发展方向!

来自主题: AI技术研报
10883 点击    2026-02-11 14:43
故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

OpenAI携手APOLLO的新研究发现,大模型会对指令阳奉阴违,为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为……比如,o3模型在化学测试中,通过推理得出如果正确率超过50%将不会被部署的结论后,

来自主题: AI技术研报
10102 点击    2025-09-23 16:34
让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。

来自主题: AI技术研报
8667 点击    2025-08-13 11:27
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报
8557 点击    2025-07-11 16:23
从追缉本·拉登到AI战争,解密Palantir的崛起之路

从追缉本·拉登到AI战争,解密Palantir的崛起之路

从追缉本·拉登到AI战争,解密Palantir的崛起之路

Palantir是一家大数据AI公司,从军事起家如协助追缉本·拉登,扩展到商业和国防应用。核心产品包括Gotham情报分析、Foundry企业整合、AIP代理和Apollo部署,提供定制化服务以提升效率。在AI浪潮下股价大涨15倍,市盈率520倍。硅谷右翼崛起推动其定位为“国运股”,挑战传统估值逻辑。

来自主题: AI资讯
8397 点击    2025-06-30 11:59
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文

DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文

DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点,读完会对 GRPO 及其改进算法有更深的理解,进而启发构建推理模型的新思路。

来自主题: AI技术研报
11945 点击    2025-05-24 14:33
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

一个超越DeepSeek GRPO的关键RL算法出现了!这个算法名为DAPO,字节、清华AIR联合实验室SIA Lab出品,现已开源。禹棋赢,01年生,本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年年中,他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。

来自主题: AI资讯
10291 点击    2025-03-20 23:06