AI资讯新闻榜单内容搜索-全模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 全模态
MiniMax 发布 MMX-CLI:为 Agent 设计的全模态命令行工具

MiniMax 发布 MMX-CLI:为 Agent 设计的全模态命令行工具

MiniMax 发布 MMX-CLI:为 Agent 设计的全模态命令行工具

今天我们发布 MMX-CLI,一个面向 AI Agent 的命令行工具。接入 MMX-CLI 后,Agent 可以在 Claude Code、OpenClaw 等环境中原生调用 MiniMax 最新的编程、视频生成、语音合成、音乐创作等全模态模型,无需适配繁琐接口,也无需额外编写 MCP Server。

来自主题: AI资讯
9147 点击    2026-04-09 13:06
多模态不是拼模块,千问新模型证明了最关键的一件事

多模态不是拼模块,千问新模型证明了最关键的一件事

多模态不是拼模块,千问新模型证明了最关键的一件事

林俊旸离职了,但 Qwen 不能停。最近 Qwen3.5-Omni 发布,一个原生全模态大模型,文本、图片、音频、视频的理解与生成,集于一身。 这不是第一个试图「什么都做」的模型。过去两年,多模态是所

来自主题: AI资讯
7730 点击    2026-04-01 15:50
阿里又一个王炸!Qwen3.5-Omni 全模态硬核实测

阿里又一个王炸!Qwen3.5-Omni 全模态硬核实测

阿里又一个王炸!Qwen3.5-Omni 全模态硬核实测

阿里刚刚发布了最新一代全模态大模型 Qwen3.5-Omni,在通用音频理解、推理、翻译和对话等维度,已全面超越 Gemini 3.1 Pro。所谓全模态,在于它拥有了接近人类的“感官”。它能听、能看、能说、能写。

来自主题: AI资讯
9954 点击    2026-03-31 11:20
MiniMax Token Plan:全球首个支持全模态模型的订阅计划

MiniMax Token Plan:全球首个支持全模态模型的订阅计划

MiniMax Token Plan:全球首个支持全模态模型的订阅计划

去年 11 月,M2 系列模型 Coding Plan 国内率先上线。M2 系列模型的编码能力、处理速度,还有对主流编程工具的适配,受到了很多开发者朋友的欢迎,M2.7 也成为了大家首选的编程模型之一。

来自主题: AI资讯
8238 点击    2026-03-24 17:21
刚刚,被全网猜是DeepSeek V4的神秘大模型,被小米认领了!还能免费“养龙虾”

刚刚,被全网猜是DeepSeek V4的神秘大模型,被小米认领了!还能免费“养龙虾”

刚刚,被全网猜是DeepSeek V4的神秘大模型,被小米认领了!还能免费“养龙虾”

今日凌晨,小米MiMo大模型系列重磅三连更:旗舰基座大模型MiMo-V2-Pro、全模态Agent模型MiMo-V2-Omni、MiMo-V2-TTS,其最新发布的这三大模型都是为优化智能体能力打造。

来自主题: AI资讯
8522 点击    2026-03-19 08:55
从多模态大模型中「拆」出音频向量模型

从多模态大模型中「拆」出音频向量模型

从多模态大模型中「拆」出音频向量模型

Google 最近发了 Gemini Embedding 2,他们第一个原生多模态向量模型。文本、图像、视频、音频、文档,全部映射到同一个 3072 维向量空间。这是 Omni Embedding(全模态向量模型)的大趋势:一个架构吃下所有模态,从 jina-embeddings-v4 到 Omni-Embed-Nemotron 再到 Omni-5,大家都在往这个方向收敛。

来自主题: AI技术研报
6127 点击    2026-03-16 15:06
谷歌AGI底座降临!首个原生全模态嵌入模型上线,已实现全模态SOTA

谷歌AGI底座降临!首个原生全模态嵌入模型上线,已实现全模态SOTA

谷歌AGI底座降临!首个原生全模态嵌入模型上线,已实现全模态SOTA

谷歌发布首个原生全模态 Embedding 模型 Gemini Embedding 2!它将文本、图、音视频及 PDF 无损融于统一向量空间,实现跨越五大模态的直接检索。这极大降低了架构成本,赋予了 AI 真正连贯的「记忆」,是重塑 AI 基建的里程碑。

来自主题: AI资讯
9568 点击    2026-03-12 10:21
刚刚,面壁小钢炮开源进阶版「Her」,9B模型居然有了「活人感」

刚刚,面壁小钢炮开源进阶版「Her」,9B模型居然有了「活人感」

刚刚,面壁小钢炮开源进阶版「Her」,9B模型居然有了「活人感」

面壁开源了行业首个全双工全模态大模型 MiniCPM-o 4.5,相比已有多模态模型,MiniCPM-o 4.5 首次实现了「边看边听边说」以及「自主交互」的全模态能力,模型不再只是把视觉、语音作为静态输入处理,而是能够在实时、多模态信息流中持续感知环境变化,并在输出的同时保持对外界的理解。

来自主题: AI资讯
10005 点击    2026-02-04 22:39