AI资讯新闻榜单内容搜索-全模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 全模态
音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准 FutureOmni,要求模型从音频 - 视觉线索中预测未来事件,实现跨模态因果和时间推理。

来自主题: AI技术研报
5665 点击    2026-01-26 10:19
2.4万亿参数量文心5.0正式版发布,霸榜LMArena的“最强文科生”到底强在哪?

2.4万亿参数量文心5.0正式版发布,霸榜LMArena的“最强文科生”到底强在哪?

2.4万亿参数量文心5.0正式版发布,霸榜LMArena的“最强文科生”到底强在哪?

在文心Moment大会上,文心大模型5.0正式版上线。据称,该模型参数量达2.4万亿,采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出。

来自主题: AI资讯
8288 点击    2026-01-24 11:03
「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

针对端到端全模态大模型(OmniLLMs)在跨模态对齐和细粒度理解上的痛点,浙江大学、西湖大学、蚂蚁集团联合提出 OmniAgent。这是一种基于「音频引导」的主动感知 Agent,通过「思考 - 行动 - 观察 - 反思」闭环,实现了从被动响应到主动探询的范式转变。

来自主题: AI技术研报
7030 点击    2026-01-09 10:54
AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

近年来,多模态大语言模型正在经历一场快速的范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。此类模型的目标不仅是感知全模态内容,还要将视觉理解和生成整合到统一架构中,从而实现模态间的协同交互。

来自主题: AI技术研报
9367 点击    2025-12-29 09:05
火线解析MiniMax招股书!全球领先大模型成本只有OpenAI 1%,果然拳怕少壮

火线解析MiniMax招股书!全球领先大模型成本只有OpenAI 1%,果然拳怕少壮

火线解析MiniMax招股书!全球领先大模型成本只有OpenAI 1%,果然拳怕少壮

刚刚,上海大模型独角兽MiniMax,正式通过港交所聆讯,吹响了IPO冲刺号角。但直到招股书披露,更重要的资本吸引力原因才完全明确——不仅因为全模态能力全球领先,更关键的是,累计花费只用了5亿美元,不到OpenAI的1%。

来自主题: AI资讯
9046 点击    2025-12-21 23:20
哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

全模态大模型(Omnimodal Large Models, OLMs)能够理解、生成、处理并关联真实世界多种数据类型,从而实现更丰富的理解以及与复杂世界的深度交互。人工智能向全模态大模型的演进,标志着其从「专才」走向「通才」,从「工具」走向「伙伴」的关键点。

来自主题: AI技术研报
8561 点击    2025-11-26 09:13
拆解Gemini 3:Scaling Law的极致执行与“全模态”的威力

拆解Gemini 3:Scaling Law的极致执行与“全模态”的威力

拆解Gemini 3:Scaling Law的极致执行与“全模态”的威力

毫无疑问,Google最新推出的Gemini 3再次搅动了硅谷的AI格局。在OpenAI与Anthropic激战正酣之时,谷歌凭借其深厚的基建底蕴与全模态(Native Multimodal)路线,如今已从“追赶者”变成了“领跑者”。

来自主题: AI资讯
9802 点击    2025-11-24 15:26
实测完“灵光”,我意识到人类对 AI 助手的开发不足1%

实测完“灵光”,我意识到人类对 AI 助手的开发不足1%

实测完“灵光”,我意识到人类对 AI 助手的开发不足1%

今天的朋友圈,被一款叫「灵光」的APP刷屏了。了解了一下,这是一款来自蚂蚁集团的AI 应用,定位是面向普通人的零门槛全模态 AI 助手,还可以自然语言30秒生成可互动的小应用。这让我想到了还在预热,这周即将发布的Gemini3.0,一句话生成操作系统,这都给了我们一个无限想象力的画面。未来,AI生成的边界是什么?

来自主题: AI产品测评
15562 点击    2025-11-18 14:36
2.4万亿参数原生全模态,文心5.0一手实测来了

2.4万亿参数原生全模态,文心5.0一手实测来了

2.4万亿参数原生全模态,文心5.0一手实测来了

刚刚,文心5.0正式发布了!全新一代主打原生全模态,最开始就把语言/图像/视频/音频放在同一套自回归统一架构里,做统一的理解与生成训练。所以,最终模型能够做到支持全模态输入(文字/图片/音频/视频)+全模态输出(文字/图片/音频/视频),创意写作、指令遵循、智能体规划方面也更强了。

来自主题: AI资讯
9952 点击    2025-11-13 21:01
从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音

从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音

从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音

复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni,统⼀视觉、⽂本、听觉与动作模态,实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据,引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。

来自主题: AI技术研报
9568 点击    2025-11-12 09:29