RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案
RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。
搜索
近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。
大家还记得Mira Murati吗?那个曾经主导ChatGPT开发的“AI女王”,OpenAI的前CTO,2024年突然离职后,让整个科技圈炸锅!短短几个月,融资20亿美元,估值飙到120亿美元,现在更传出新一轮融资目标直冲500亿美元!这速度,这手笔,简直是AI界的“神话”!而最近的重磅炸弹来了:他们的首款产品Tinker正式全面开放!不再需要等待名单,人人可用!
Jenny 创立的 Robyn 刚刚完成了 550 万美元的种子轮融资,由 M13 领投,Google Maps 联合创始人 Lars Rasmussen、Canva 早期投资人 Bill Tai、前雅虎 CFO Ken Goldman 等人参与投资。
今天我们正式发布 Jina-VLM,这是一款 2.4B 参数量的视觉语言模型(VLM),在同等规模下达到了多语言视觉问答(Multilingual VQA)任务上的 SOTA 基准。Jina-VLM 对硬件需求较低,可在普通消费级显卡或 Macbook 上流畅运行。
来自中国的初创团队词元无限给出了自己的答案。由清华姚班校友带队设计开发的编码智能体 InfCode,在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 两项非常权威的 AI Coding 基准中双双登顶,力压一众编程智能体。
近一年以来,统一理解与生成模型发展十分迅速,该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型(如 Emu3)与单任务的方法差距巨大,Janus-Pro、BAGEL 通过一步一步解耦模型架构,极大地减小了与单任务模型的性能差距,后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。
在 LLM 优化领域,有两个响亮的名字:Adam(及其变体 AdamW)和 Muon。
CMU×Meta 联手,姚班李忆唐最新论文成果。
毫无疑问,Google最新推出的Gemini 3再次搅动了硅谷的AI格局。在OpenAI与Anthropic激战正酣之时,谷歌凭借其深厚的基建底蕴与全模态(Native Multimodal)路线,如今已从“追赶者”变成了“领跑者”。
硅谷这帮人,胆子是真的大啊!一个几乎0模型、0产品的公司,就靠着创始人的出身,硬生生估值到500亿美元!Thinking Machines Lab又要融资了,这次要筹集40亿至50亿美元。