英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了
英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了强化学习可以提升LLM推理吗?英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型,媲美Deepseek-R1-7B,数学、代码等全面泛化。
强化学习可以提升LLM推理吗?英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型,媲美Deepseek-R1-7B,数学、代码等全面泛化。
无需蒸馏任何大规模语言模型,小模型也能自给自足、联合提升?
据《金融时报》报道,由OpenAI 前CTO Mira Murati 创立的隐秘人工智能初创公司 Thinking Machines Lab 已完成 20 亿美元种子轮融资 。这笔交易使这家成立仅 6 个月的初创公司估值达到 100 亿美元。
这款 Agent 擅长多轮搜索和推理,平均每项任务执行 23 个推理步骤,访问超过 200 个网址。它是基于 Kimi k 系列模型的内部版本构建,并完全通过端到端智能体强化学习进行训练,也是国内少有的基于自研模型打造的 Agent。
硬氪获悉,触觉感知与具身智能领军企业「帕西尼感知科技」(以下简称“帕西尼”),已于近日完成新一轮 A 系列融资。
只需修改两行代码,RAG向量检索效率暴涨30%!
LLM 智能体的时代,单个 Agent 的能力已到瓶颈,组建像 “智能体天团” 一样的多智能体系统已经见证了广泛的成功
微软 2025Build 大会开源了一个名为 NLWeb 的项目。它能做到仅仅用300行代码,就在你现有的网站上加个 ChatGPT 聊天对话框。
李亚飞做了 20 多年全栈工程师,技术社区和面向程序员的产品做了十多年,经手过数不清的软件项目。
近日,初创公司 Every 总经理 Kieran Klaassen 在 x 上表示自己用 Claude Code 编程时平均每天花 250 美元,也就是说一个月花费 6000 美元(约合 4.3 万人民币)。