AI资讯新闻榜单内容搜索-PPO

RAG新SOTA，还在5亿条数据上跑进秒级，只有它了

广州智跃深空人工智能科技有限公司 Zleap AI 提出的 SAG（SQL-Retrieval Augmented Generation）出场了。其实，名字已经点题了——不是 Graph、Hippo，而是 SQL-Retrieval。它的核心想法是在离线阶段，SAG 先把原始文本先整理成「事项 + 实体」的数据库结构。等查询来了，再围绕当前问题，用 SQL 动态串出一张局部线索网。

来自主题: AI技术研报

8601 点击 2026-06-18 16:58

从Memory到端侧Agent，OPPO正在寻找AI手机的下一块价值底座

2026年的AI行业，正在出现一种微妙的变化。

来自主题: AI资讯

9592 点击 2026-06-03 09:26

给 OpenClaw 做硬件没前途，但给上下文系统做，是值得的

一家叫泛灵人工智能的团队，出了一款主打「超级办公助理」的硬件产品。

来自主题: AI资讯

6592 点击 2026-04-03 10:49

后训练中的RL已死？MIT新算法挑战传统后训练思维，谢赛宁转发

在当前的 LLM 开发中，后训练阶段通常被视为赋予模型特定能力的关键环节。传统的观点认为，模型必须通过强化学习（如 PPO、GRPO 或 RLHF）和进化策略（ES）等算法，在反复的迭代和梯度优化过程中调整权重，才能在特定任务上达到理想的性能。

来自主题: AI技术研报

6479 点击 2026-03-16 14:26

段永平，投了一家AI医疗！

「中国巴菲特」段永平，押注AI医疗。数据显示，段永平Q4买入了AI医疗公司Tempus AI，新进11万股。段永平曾一手打造小霸王、步步高，还是OPPO、vivo的幕后奠基人；之后退居幕后转向投资

来自主题: AI资讯

9253 点击 2026-02-20 19:17

正浩、OPPO前高管创业AI智能运动手表，天使轮估值1亿美金 | 早期项目

硬氪获悉，AI智能运动穿戴品牌「苔源MossCode」近日完成数千万元天使轮融资，本轮由XVC和清流资本共同投资。

来自主题: AI资讯

6425 点击 2026-02-11 14:01

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练（Post-training）阶段，DPO（直接偏好优化）凭借其无需训练独立 Reward Model 的优雅设计和高效性，成功取代 PPO 成为业界的「版本之子」，被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报

8210 点击 2026-02-11 13:58

英国想当“AI超级大国”，结果卡在这儿了...

全球人工智能（AI）热潮下，英国斯塔默政府在今年1月推出了雄心勃勃的“人工智能机遇行动计划”（AI Opportunities Action Plan），目标是成为“人工智能超级大国”。

来自主题: AI资讯

8020 点击 2025-12-29 15:08

OPPO 姜昱辰：从 GUI 到 Agent，AI 手机交互革命的「终局」思考

AI 手机，做真正懂你的超级助理。

来自主题: AI资讯

11341 点击 2025-12-08 14:15

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

近日，由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models（检测情感动态轨迹：大语言模型情感支持的评估框架）》论文，获 AAAI 2026 录用。

来自主题: AI技术研报

9613 点击 2025-12-08 14:13