AI资讯新闻榜单内容搜索-VLM

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体（Agent）越来越强大，尤其是像 VLM（视觉-语言模型）这样能「看懂」世界的智能体。但研究者发现一个大问题：相比于只处理文本的 LLM 智能体，VLM 智能体在面对复杂的视觉任务时，常常表现得像一个「莽撞的执行者」，而不是一个「深思熟虑的思考者」。

来自主题: AI技术研报

8285 点击 2025-10-28 09:26

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

尽管视觉语言模型（LVLMs）在图像与短视频理解中已取得显著进展，但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题，厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报

8161 点击 2025-10-22 14:57

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

现有视觉语言大模型（VLMs）在多模态感知和推理任务上仍存在明显短板：1. 对图像中的细粒度视觉信息理解有限，视觉感知和推理能力未被充分激发；2. 强化学习虽能带来改进，但缺乏高质量、易扩展的 RL 数据。

来自主题: AI技术研报

7876 点击 2025-10-21 15:30

RL新思路！复旦用游戏增强VLM通用推理，性能匹敌几何数据

复旦大学NLP实验室研发Game-RL，利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据，通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法，系统化合成游戏任务数据，构建GameQA数据集，验证了游戏数据在复杂推理训练中的优势。

来自主题: AI技术研报

9723 点击 2025-10-21 10:05

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

来自主题: AI技术研报

8181 点击 2025-10-20 12:19

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人，是机器人学领域一个长期追逐的圣杯。近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，许多研究者将希望寄托于视觉 - 语言 - 动作（VLA）模型，期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。

来自主题: AI技术研报

9106 点击 2025-10-13 11:02

国产游戏理解模型刷新SOTA，对话逗逗AI CEO：开源模型+行业数据是突破关键

游戏理解领域模型LynkSoul VLM v1，在游戏场景中表现显著超过了包括GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash等一众顶尖闭源模型。背后厂商逗逗AI，亦在现场吸引了不少关注的目光。

来自主题: AI资讯

9996 点击 2025-10-11 17:25

机器人感知大升级！轻量化注入几何先验，成功率提升31%

VLA模型通常建立在预训练视觉语言模型（VLM）之上，仅基于2D图像-文本数据训练，缺乏真实世界操作所需的3D空间理解能力。

来自主题: AI技术研报

8041 点击 2025-09-29 14:53

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

OpenAI o3的多轮视觉推理，有开源平替版了。并且，与先前局限于1-2轮对话的视觉语言模型（VLM）不同，它在训练限制轮数只有6轮的情况下，测试阶段能将思考轮数扩展到数十轮。

来自主题: AI技术研报

9830 点击 2025-09-16 10:02

苹果端侧AI两连发！模型体积减半、首字延迟降85倍，iPhone离线秒用

苹果在 Hugging Face上放大招了！这次直接甩出两条多模态主线：FastVLM主打「快」，字幕能做到秒回；MobileCLIP2主打「轻」，在 iPhone 上也能起飞。更妙的是，模型和Demo已经全开放，Safari网页就能体验。大模型，真·跑上手机了。

来自主题: AI资讯

9497 点击 2025-09-08 11:34