使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗?
搜索
没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗?
今天给大家看个新东西,聊一聊我在怎么防AI洗稿。。。
为什么必须像评估劳动力一样评估LLM代理,而不仅仅是评估软件。
在 ICLR 2025 中,来自南洋理工大学 S-Lab、上海 AI Lab、北京大学以及香港大学的研究者提出的基于 Flow Matching 技术的全新 3D 生成框架 GaussianAnything,针对现有问题引入了一种交互式的点云结构化潜空间,实现了可扩展的、高质量的 3D 生成,并支持几何-纹理解耦生成与可控编辑能力。
北京时间3月10日,彭博科技报道称,ServiceNow公司接近达成收购人工智能公司Moveworks的交易,交易价格接近30亿美元。
随着推理模型能力提升,本周Agent也进入刷屏周。
Magma是一个新型多模态基础模型,能够理解和执行多模态任务,适用于数字和物理环境:通过标记集合(SoM)和标记轨迹(ToM)技术,将视觉语言数据转化为可操作任务,显著提升了空间智能和任务泛化能力。
哪些学科和AI的结合有哪些错位?
AI将被赋予情感。
创造智能时代的终极图景 —— 一个虚实交融、万物互联的实时数字孪生世界