AI资讯新闻榜单内容搜索-多模态

阿里通义千问发布多模态智能体模型Qwen3.7-Plus，让AI从“读懂世界”，走向“动手完成任务”。

今天，阿里通义千问发布多模态智能体模型Qwen3.7-Plus。相比传统“看图说话”式多模态模型，Qwen3.7-Plus在识别图像的基础上，进一步打通界面感知、工具调用、代码生成和任务交付，让AI从“读懂世界”，走向“动手完成任务”。

来自主题: AI资讯

9726 点击 2026-06-02 21:40

晚点独家丨字节 Seed 架构调整：周畅管理范围扩大，具身业务纳入核心

独家获悉，字节跳动多模态负责人周畅管理范围再次扩大，原由李航负责的 Seed Robotics 团队已向周畅汇报月余，李航现以顾问身份负责学术合作方向。字节也正在招聘具身智能技术负责人，负责机器人业务整体规划，职级定位为 L8，对标阿里 P10-P11，将向周畅汇报。该岗位候选人主要来自头部具身智能创业公司技术负责人。

来自主题: AI资讯

9113 点击 2026-06-02 21:23

MiniMax 低调发布 M3 和 MiniMax Code，我们测完后有几点感受

前沿的 Coding 能力、1M 的上下文窗口，还有原生的多模态

来自主题: AI产品测评

8178 点击 2026-06-02 11:58

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

MiniMax M3 今日正式发布。MiniMax M3 在编程和智能体等专业任务上达到了前沿的能力。它使用了我们提出的全新注意力架构 MSA （MiniMax Sparse Attention），最高支持 1M 超长上下文。如外界所期待的那样，它也是一个原生多模态模型，支持图片和视频的输入，并能操作电脑桌面。

来自主题: AI资讯

9924 点击 2026-06-01 09:49

Rubrics综述：Agent时代，如何定义一个「好答案」？

近年来，随着大模型从简单问答，走向深度研究、医疗咨询、多模态生成和长程 Agent 任务，一个基础问题变得越来越难回答：我们到底应该怎样判断模型输出的质量？

来自主题: AI技术研报

8814 点击 2026-06-01 09:24

将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式

当你把一段长达9分钟、在“晴空万里”与“冰天雪地”间剧烈切换的冰岛旅行Vlog输入给大模型，并要求它做一份旅行攻略时，常规的视觉大模型通常只能给出一份基于字幕和画面标签拼凑的“流水账”。

来自主题: AI技术研报

8801 点击 2026-05-27 09:52

用文字记住图片，是一种错觉：MemEye用「原图证据」重测多模态Agent Memory

多模态Agent最容易制造的一种错觉是：它看过图片，所以它记住了图片。

来自主题: AI技术研报

6374 点击 2026-05-27 08:46

VeRL-Omni：面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架，由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer（Qwen-Image）、混合 AR-DiT（Qwen-Omni）、统一理解 + 生成（BAGEL、HunyuanImage-3.0）等架构。

来自主题: AI技术研报

7803 点击 2026-05-26 10:26

一家「非主流」AI公司的豪赌：所有模态，一锅炖了 | 对话智象未来姚霆

多模态训练狠狠烧钱，世界模型公司也都在疯狂融资。

来自主题: AI资讯

8776 点击 2026-05-25 15:11

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布，融资持续提速

智象未来正式发布基于新一代原生全模态模型架构 Unified Transformer（UiT）打造的图像大模型 HiDream-O1-Image-Pro。这一超2千亿参数的原生全模态图像大模型，不仅在多个基准测试中刷新 SOTA 纪录，也标志着智象未来正向图像、视频、文本、音频等多模态统一建模的“原生全模态”阶段迈进。

来自主题: AI资讯

8963 点击 2026-05-25 09:49