AI资讯新闻榜单内容搜索-PPO

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: PPO
RAG新SOTA,还在5亿条数据上跑进秒级,只有它了

RAG新SOTA,还在5亿条数据上跑进秒级,只有它了

RAG新SOTA,还在5亿条数据上跑进秒级,只有它了

广州智跃深空人工智能科技有限公司 Zleap AI 提出的 SAG(SQL-Retrieval Augmented Generation) 出场了。其实,名字已经点题了——不是 Graph、Hippo,而是 SQL-Retrieval。它的核心想法是在离线阶段,SAG 先把原始文本先整理成「事项 + 实体」的数据库结构。等查询来了,再围绕当前问题,用 SQL 动态串出一张局部线索网。

来自主题: AI技术研报
8601 点击    2026-06-18 16:58
给 OpenClaw 做硬件没前途,但给上下文系统做,是值得的

给 OpenClaw 做硬件没前途,但给上下文系统做,是值得的

给 OpenClaw 做硬件没前途,但给上下文系统做,是值得的

一家叫泛灵人工智能的团队,出了一款主打「超级办公助理」的硬件产品。

来自主题: AI资讯
6592 点击    2026-04-03 10:49
后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

在当前的 LLM 开发中,后训练阶段通常被视为赋予模型特定能力的关键环节。传统的观点认为,模型必须通过强化学习(如 PPO、GRPO 或 RLHF)和进化策略(ES)等算法,在反复的迭代和梯度优化过程中调整权重,才能在特定任务上达到理想的性能。

来自主题: AI技术研报
6479 点击    2026-03-16 14:26
段永平,投了一家AI医疗!

段永平,投了一家AI医疗!

段永平,投了一家AI医疗!

「中国巴菲特」段永平,押注AI医疗。 数据显示,段永平Q4买入了AI医疗公司Tempus AI,新进11万股。 段永平曾一手打造小霸王、步步高,还是OPPO、vivo的幕后奠基人;之后退居幕后转向投资

来自主题: AI资讯
9253 点击    2026-02-20 19:17
ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报
8210 点击    2026-02-11 13:58
英国想当“AI超级大国”,结果卡在这儿了...

英国想当“AI超级大国”,结果卡在这儿了...

英国想当“AI超级大国”,结果卡在这儿了...

全球人工智能(AI)热潮下,英国斯塔默政府在今年1月推出了雄心勃勃的“人工智能机遇行动计划”(AI Opportunities Action Plan),目标是成为“人工智能超级大国”。

来自主题: AI资讯
8020 点击    2025-12-29 15:08
DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

近日,由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models(检测情感动态轨迹:大语言模型情感支持的评估框架)》论文,获 AAAI 2026 录用。

来自主题: AI技术研报
9613 点击    2025-12-08 14:13