AI资讯新闻榜单内容搜索-模型训练

前DeepMind华人研究员离职喊话：AI行业所有人都搞错了方向

前谷歌DeepMind研究员离职并发表长文指出AI行业当前最被低估的瓶颈。他认为，现有的基准测试和安全评估都隐含假设下一代模型只是当前模型的增强版，但如果模型跨入全新能力区间，整个评估基础设施将悄然崩溃。

来自主题: AI资讯

8251 点击 2026-05-25 09:47

RSS 2026｜机器人别等失败了才补救，AgentChord让恢复动作提前写进任务图

机器人操作正在从结构化工业场景走向更开放的真实环境。相比完成单个预设动作，真实任务往往包含更长的执行链条、更复杂的物体交互，以及更多不可控的外部扰动。一次抓取没有完全夹稳、目标物体被轻微碰偏、双臂交接时姿态出现偏差，都可能让后续步骤偏离原本计划。

来自主题: AI技术研报

7820 点击 2026-05-25 09:46

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

最近，来自上海创智学院、复旦大学等机构的研究者提出了 Hallo-Live，试图正面解决这个矛盾。论文于 2026 年 4 月 26 日发布在 arXiv。该方法将异步双流扩散（Asynchronous Dual-Stream Diffusion）与人类偏好引导蒸馏（Human-Centric Preference-Guided DMD）结合起来

来自主题: AI技术研报

8280 点击 2026-05-24 10:20

Bengio新论文刷新递归推理上限，并行轨迹碾压串行推理

现在，图灵奖得主 Yoshua Bengio 给出了一份全新的并行方案。他们提出了 GRAM（Generative Recursive reAsoning Models，生成式递归推理模型），把确定性的递归潜在推理变成了概率性的多轨迹计算。模型在潜在空间中进行随机递归推理，每一步都可以采样不同的方向，最终形成对解空间的多路径探索。

来自主题: AI技术研报

9532 点击 2026-05-24 10:12

22.9倍加速！FlashAR：仅用0.05%数据，让预训练好的自回归图像模型飞起来

来自浙江大学和阿德莱德大学的研究团队提出了 FlashAR—— 一个轻量级的后训练加速框架。不需要从头训练，在 Emu3.5-Image-34B 模型上，仅用原始训练数据的 0.05%（约 8 万张图片），就能将预训练好的自回归模型改造成高度并行的生成器 Emu3.5-34B-Flash，实现最高 22.9 倍的端到端加速。

来自主题: AI技术研报

8708 点击 2026-05-24 10:07

OpenClaw案例：无需恶意攻击，日常聊天也能「黑化」Agent！

日常聊天可能在不经意间污染个性化Agent的长期记忆，使其在未来任务中偏离用户真实意图。研究人员通过ULSPB基准测试发现，即使无恶意提示，日常对话也可能改变Agent的安全边界。

来自主题: AI技术研报

7832 点击 2026-05-23 09:57

ICML 2026 | 打破「回音室」效应！人大孟澄团队&华为提出集成剪枝视角下的MoE新架构

近年来，Mixture-of-Experts（MoE）已经成为大模型扩展的重要架构之一。相比稠密 Transformer，MoE 通过稀疏激活机制，在每个 token 上只调用少量专家，从而在控制计算成本的同时扩大模型容量。然而，一个长期存在的问题是：专家越多，并不意味着专家真的学得越 “专”。

来自主题: AI技术研报

8027 点击 2026-05-23 09:56

终结VLA？英伟达押注的具身新范式，首篇世界动作模型WAM综述重磅发布

Jim Fan 押注的这条 “先预测世界，再生成动作” 的新路，正是当下具身智能领域最炙手可热的下一代范式 —— 世界动作模型（World Action Models，简称 WAM）。虽然 WAM 正在迅速成为各大顶尖实验室的核心发力点，但业界至今仍然缺乏对它的统一标准和系统梳理。近期，复旦大学可信具身智能研究院，上海创智学院，新加坡国立大学发表了首篇 WAM 的详细综述。

来自主题: AI技术研报

9307 点击 2026-05-23 09:55

CVPR 2026 | 突破短视，理解变化！HiF-VLA：以motion为中心打造「边想边做」的世界动作模型

来自西湖大学、浙江大学、西湖机器人等机构的研究团队提出了一种以运动（Motion）为中心的全新双向时空推理框架 HiF-VLA。抛弃冗余的像素级输入，HiF-VLA 巧妙提取低维紧凑的 Motion 向量作为动态先验，在一个创新的「联合专家」模块中，同步完成未来视觉运动的预测与高精度动作序列的生成。

来自主题: AI技术研报

8408 点击 2026-05-23 09:55

首个三模式大语言模型：4倍token吞吐量，长文本秒级时代要来了？

英伟达提出了全球首个三模式的大语言模型系列，只需简单更改注意力模式 / 掩码，即可在自回归、扩散和自推测解码之间切换。一个模型，三种解码模式，没有额外的草稿模型，没有架构变更。最快的模式 token 吞吐量能提升 4 倍。

来自主题: AI技术研报

9566 点击 2026-05-22 15:33