AI资讯新闻榜单内容搜索-模型训练

Agent为什么都在疯狂外挂“Skills”？首个SkillsBench来了，讲透性能暴涨的底层逻辑

在2026当下的智能体（Agent）开发体系中，“为LLM加Skills”已经成为事实上的行业标准。您的Agent表现不好，是因为底层的LLM参数量不够，还是因为您喂给它的“Skills”写得一塌糊涂？无论是日常使用的各类CLI工具，还是最近的Openclaw，其底层能力的跃升很大程度上都依赖于这些特定领域的Agent Skills。

来自主题: AI技术研报

10093 点击 2026-02-25 14:09

让AI智能体「记住」失败经验：微软提出Re-TRAC框架，4B性能SOTA，30B超越358B

来自东南大学、微软亚洲研究院等机构的研究团队提出了一种全新的解决方案——Re-TRAC（REcursive TRAjectory Compression），这个框架让 AI 智能体能够「记住」每次探索的经验，在多个探索轨迹之间传递经验，实现渐进式的智能搜索。

来自主题: AI技术研报

10224 点击 2026-02-25 10:35

jina-embeddings-v5-text：0.6B 参数下最好的多语言向量模型

jina-embeddings-v5-text 岁在丙午，开年即战。Jina AI 的五代目向量模型春节期间正式发布。1B 参数内世界第一，全面刷新向量模型的性能天花板！

来自主题: AI技术研报

9810 点击 2026-02-24 15:43

多模态DeepResearch，成了！

DeepResearch 的价值在于把「查资料」变成「做研究」：不是搜到一条就回答，而是会连续多轮地提出问题、去不同地方找证据、互相对照核实、再把信息整理成结构清晰的结论。这样做能显著降低「凭感觉瞎编

来自主题: AI技术研报

8505 点击 2026-02-24 15:41

字节Seed用化学思想搞AI，把DeepSeek-R1的脑回路拆成了分子结构

字节Seed都开始用化学思想搞大模型了——深度推理是共价键、自我反思是氢键、自我探索是范德华力？！

来自主题: AI技术研报

10294 点击 2026-02-24 15:37

大模型真听懂了吗？最全综合性口语感知与推理基准 | ICLR'26

随着多模态大模型能力不断扩展，语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。然而，当模型逐渐进入真实口语交互场景，一个更基础的问题浮现出来：我们是否真正定义清楚了「语音理解」的能力边界？

来自主题: AI技术研报

10866 点击 2026-02-24 15:35

ICLR 2026 | 数据缺少标注，RL还能稳定诱导模型推理吗？Co-rewarding提供自监督RL学习方案！

针对这一挑战，来自香港浸会大学和上海交通大学的可信机器学习和推理组提出了一个全新的自监督 RL 框架 ——Co-rewarding。该框架通过在数据端或模型端引入互补视角的自监督信号，稳定奖励获取，提升 RL 过程中模型奖励投机的难度，从而有效避免 RL 训练崩溃，实现稳定训练和模型推理能力的诱导。

来自主题: AI技术研报

8694 点击 2026-02-24 15:16

北大团队让AI智能体「入侵」论坛，指挥真实机器人执行任务

公元前47年，凯撒在泽拉战役速胜后给罗马元老院写了三个词的战报：「Veni, Vidi, Vici」——我来了，我看见了，我征服了。两千多年后，北京大学杨仝教授团队也用三步定义了一种全新的AI范式：降临论坛、接管指令、统治物理世界。

来自主题: AI技术研报

9017 点击 2026-02-24 09:12

千问 3.5：0.8 元的顶级模型，我找不到它的对手

我正对着镜子站立，举起一只手。在我的视野中，这只手出现在镜子画面的左侧。请问在现实中，我举起的是哪只手？答案应该是：左手。一道堪比「9.11 ＞ 9.8」的 AI 陷阱题。前两天，我拿它测了一

来自主题: AI产品测评

7443 点击 2026-02-24 09:12

GLM-5 技术报告全解读｜a16z：“最好的开源模型”

a16z 昨天发了一张图，把 GLM-5 和 Claude Opus 4.6 并排标注在 Artificial Analysis Intelligence Index 的时间线上。原文的说法是： A proprietary model (Claude Opus 4.6) is still the 'most intelligent,' but the gap between

来自主题: AI技术研报

13185 点击 2026-02-22 23:06