AI资讯新闻榜单内容搜索-多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态大模型
UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

多模态大模型在代码能力上进步惊人,但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision,让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中,SWE-Vision 均达到了当前最优水平。

来自主题: AI技术研报
9590 点击    2026-03-16 14:25
独家|梁文锋将携DeepSeek V4撞上姚顺雨

独家|梁文锋将携DeepSeek V4撞上姚顺雨

独家|梁文锋将携DeepSeek V4撞上姚顺雨

我们独家获悉,外界千呼万唤的DeepSeek-V4将于4月正式上线。作为梁文锋打磨已久的多模态大模型,DeepSeek-V4除了在Coding能力上跃升之外,还将在LTM(long term memory长期记忆)上取得突破。

来自主题: AI资讯
10848 点击    2026-03-12 17:20
CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

大家是否有这样的感觉?给定几张场景中拍摄的图片,往往能够在脑海中想象出这个场景的三维布局,然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示,限制了图像中隐含几何结构的表达能力。

来自主题: AI技术研报
8749 点击    2026-03-11 09:25
数据邪修大法好:仅用文本数据就能预训练多模态大模型

数据邪修大法好:仅用文本数据就能预训练多模态大模型

数据邪修大法好:仅用文本数据就能预训练多模态大模型

没有图片,也能预训练多模态大模型?在多模态大模型(MLLM)的研发中,行业内长期遵循着一个昂贵的共识:没有图文对(Image-Text Pairs),就没有多模态能力。

来自主题: AI技术研报
8599 点击    2026-03-03 14:25
第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%

第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%

第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%

Meta联合多所高校发布首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU ,让多模态大模型首次真正「听懂世界」。

来自主题: AI技术研报
9034 点击    2026-02-28 15:26
大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

随着多模态大模型能力不断扩展,语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。然而,当模型逐渐进入真实口语交互场景,一个更基础的问题浮现出来:我们是否真正定义清楚了「语音理解」的能力边界?

来自主题: AI技术研报
10609 点击    2026-02-24 15:35