AI资讯新闻榜单内容搜索-自注意力机制

独家｜字节迎战阿里快乐马：开源多模统一模型Mamoda2.5，推理速度快18倍

独家获悉，字节跳动日前低调公布全球首个25B级、基于混合专家 (MoE) -扩散自注意力机制(DiT) 的开源增强统一多模态模型Mamoda2.5。Mamoda2.5依托Qwen3-VL-8B、128 个专家，Top-8 路由的MoE+DiT架构搭建，最终模型参数高达250亿，而每次仅激活约30亿参数（约12%）。

来自主题: AI资讯

10175 点击 2026-05-06 10:44

ICCV 2025 | FDAM：告别模糊视界，源自电路理论的即插即用方法让视觉Transformer重获高清细节

针对视觉 Transformer（ViT）因其固有 “低通滤波” 特性导致深度网络中细节信息丢失的问题，我们提出了一种即插即用、受电路理论启发的频率动态注意力调制（FDAM）模块。它通过巧妙地 “反转” 注意力以生成高频补偿，并对特征频谱进行动态缩放，最终在几乎不增加计算成本的情况下，大幅提升了模型在分割、检测等密集预测任务上的性能，并取得了 SOTA 效果。

来自主题: AI技术研报

7857 点击 2025-10-16 14:35

时空压缩！剑桥大学提出注意力机制MTLA：推理加速5倍，显存减至1/8

在大语言模型蓬勃发展的背景下，Transformer 架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题，成为众多研究试图突破的重点

来自主题: AI技术研报

9387 点击 2025-06-11 11:43

CVPR 2025 Highlight | 提升自回归模型样例学习能力，Few-shot图像编辑新范式开源

研究者针对 few-shot 图像编辑提出一个新的自回归模型结构 ——InstaManip，并创新性地提出分组自注意力机制（group self-attention），在此任务上取得了优异的效果。

来自主题: AI技术研报

10317 点击 2025-06-01 13:30

首个基于统计学的线性注意力机制ToST，高分拿下ICLR Spotlight

Transformer 架构在过去几年中通过注意力机制在多个领域（如计算机视觉、自然语言处理和长序列任务）中取得了非凡的成就。然而，其核心组件「自注意力机制」的计算复杂度随输入 token 数量呈二次方增长，导致资源消耗巨大，难以扩展到更长的序列或更大的模型。

来自主题: AI技术研报

9594 点击 2025-02-19 10:02

ECCV 2024 | 比基准高30%，媲美Gemini 1.5 Pro，基于记忆的视频理解智能体来了

视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而，当这些模型处理较长的视频时，内存消耗可能会显著增加，甚至变得难以承受，并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。

来自主题: AI技术研报

10098 点击 2024-09-06 11:59