AI资讯新闻榜单内容搜索-Multi

单个tokenizer胜任图像视频理解生成！南大&腾讯混元HYDRA打通多模态统一难题

南大王利民团队&腾讯混元的HYDRA系列（HYDRA，HYDRA-X）工作挑战了这个惯例，用一个基于ViT的统一视觉Tokenizer，帮助原生多模态模型更好地“看懂”和“创作”。训练一个基于ViT的Unified Tokenizer，使其同时具有理解和生成的能力，进而同时作为理解和生成的Autoencoder，来支持原生多模态模型（Unified Multimodal Models）的训练。

来自主题: AI技术研报

8199 点击 2026-06-28 11:13

Siggraph 26 | 视频版Vision-Banana来了？大一统框架UniVidX刷新多项视频任务SOTA

近日，由香港科技大学 MMLab 及合作团队完成的研究工作「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」被计算机图形学顶级会议 SIGGRAPH 2026 正式接收。

来自主题: AI技术研报

10122 点击 2026-05-12 08:53

不改模型、不降质量，谷歌让Gemma 4快了3倍：本地跑大模型彻底变天

谷歌刚刚给Gemma 4家族更新了一项关键能力：Multi-Token Prediction（MTP）推测解码架构，推理速度最高提升3倍，输出质量不变。

来自主题: AI资讯

9601 点击 2026-05-06 14:56

Anthropic一发布Multica就开源，这个4人团队想抢占AI协作层

4 月 9 日，Anthropic 在 X 上宣布 Claude Managed Agents 上线。同一天，一位 ID 叫 @jiayuan_jy 的中国创业者也发了一条推，“We created the open source version of Claude Managed Agents. Introducing Multica.”

来自主题: AI资讯

6304 点击 2026-05-06 14:56

AI「看不懂」、「做不好」视频的问题，混元用「MTSS」解决了

腾讯混元团队提出了 Multi-Stream Scene Script（MTSS），一种全新的视频描述范式 —— 将传统的 "一段话描述整个视频" 升级为 "多流结构化剧本"，通过 Stream Factorization 和 Relational Grounding 两大核心原则，让视频描述既忠实又可扩展，在视频理解和生成任务中均取得显著提升。

来自主题: AI技术研报

6894 点击 2026-04-28 09:57

一周1.2w Star，热门赛道杀出一匹黑马！对谈Multica张佳圆：如何重写“人A协作”规则？

张佳圆带着他的新产品 Multica 一周斩获 GitHub 1.2w Star回来了。这一次，他想探索的是：当 AI Agent 已经足够好，一个团队要怎么和多个 Agent 丝滑地协作？Multica 致敬的是 1964 年的操作系统 Multics——那个最终失败、但启发了 Unix 世界半个世纪的“多人、多任务”先驱。今天，它正在创造新的历史。

来自主题: AI资讯

9885 点击 2026-04-27 10:02

2秒钟转写5分钟音频！国产新语音模型拿下多项SOTA，定价骤减90%

阶跃星辰今日发布新一代自动语音识别模型StepAudio 2.5 ASR。该模型面向语音转写与长音频处理场景，在架构上引入Multi-Token Prediction（多Token预测）以提升推理效率，并通过扩展上下文窗口强化长内容识别能力。

来自主题: AI资讯

9753 点击 2026-04-25 10:22

OpenClaw的风刮到了多模态生成，6B小模型超越Nano Banana 2！

近日，上海人工智能实验室联合南京大学、香港中文大学及上海交通大学，将OpenClaw的成功应用于多模态生成领域。他们提出GEMS（Agent-Native Multimodal Generation with Memory and Skills），激发小模型潜力，甚至让6B小模型在部分任务超越了Nano Banana 2。

来自主题: AI技术研报

8518 点击 2026-04-11 10:36

视频生成不再「断片」：OneStory给模型装上「选择性记忆」，跨镜头讲故事人物场景始终如一丨CVPR'26

最近，来自Meta与University of Copenhagen的研究者提出了OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory（收录于CVPR 2026）。这项工作聚焦于一个核心问题：如何在生成多镜头视频时，有效保留长程跨镜头上下文，从而实现更强的叙事一致性。

来自主题: AI技术研报

7188 点击 2026-04-10 15:36

Claude封杀龙虾后推自家Agent服务，又被开源平替了

刚刚，Claude推出“企业版”服务，发布Claude Managed Agents，结果被开源项目“开团秒跟”！

来自主题: AI技术研报

9398 点击 2026-04-09 15:22