AI技术研报-这里有最前沿的人工智能技术解读

ECCV 2026｜当RGB变成不可靠变量：InfraNet用非对称学习重构RGB-IR检测

在讨论 RGB-IR 目标检测时，「两种模态互补」几乎是默认前提。RGB 擅长保留纹理和颜色，红外图像在弱光条件下更稳定，于是最直接的路线是搭建双分支网络，让它们在中间层不断交换信息。InfraNet 的出发点却来自一个不太符合这一直觉的现象。

来自主题: AI技术研报

8232 点击 2026-07-19 10:13

港科大新发现：MoE路由很脆弱！重复token输入阻塞负载均衡 | ICML'26

来自港科大的研究团队提出了RepetitionCurse，这是一种针对MoE大模型服务的黑盒压力测试方法。它不需要模型权重，不需要梯度，也不需要知道后端专家如何部署，只利用高度重复的输入模式，就能诱导专家路由把大量token路由到同一小批专家上。

来自主题: AI技术研报

8627 点击 2026-07-19 10:11

嚯！35家大型央国企实测后，因果世界模型落地了

WAIC期间，中数睿智发布了“AI for Reasoning”因果智能体系，针对的就是这些痛点。比如油气钻井的井控场景，井下压力和流量突然不对劲，系统不只是输出一句“存在风险”，而是能沿因果链定位病因，并推演多条干预路径：不处置会怎样？立即关井会怎样？延迟处置能撑多久、代价是什么？辅助企业在事故发生前做出最优决策。

来自主题: AI技术研报

8382 点击 2026-07-19 10:11

不换模型，效果提升104%！上海AI Lab让Harness也能自进化了

上海人工智能实验室团队提出的Self-Harness，近期被LangChain CEO、联合创始人Harrison Chase转发，也被前OpenAI副总裁Lilian Weng收进自进化Agent相关博客。它盯上的不是换模型，而是Agent外层那套Harness。

来自主题: AI技术研报

8462 点击 2026-07-18 19:10

ARC-AGI-3近被完美攻破，这个Harness能让AI掌握物理学家思维

7 月 16 日，伯克利博士后 Haven Feng 的一条推文火了。原因无他，结果很震撼：在 ARC-AGI-3 Public 集上，一套名为 [schema] 的智能体框架，与 Claude Opus 4.8、Fable 5 组合后达到 98.98% 的 RHAE；换成 GPT-5.6 Sol 组合，分数也有 95.35%。

来自主题: AI技术研报

9196 点击 2026-07-18 14:22

具身数采新方案：数字遥操作，现已开源，达摩院出品

阿里巴巴达摩院的最新工作RynnWorld-Teleop对此给出的方案是：用生成式世界模型替代真实机器人。操作员的手势驱动一个实时视频生成器，由“数字世界中的机器人”完成全部视觉演示，同时自动获得关节级的动作标签。该方案被称为数字遥操作（Digital Teleoperation）。

来自主题: AI技术研报

9262 点击 2026-07-18 10:11

ECCV 2026｜Google等推出VGGRPO：用4D隐空间奖励实现世界一致的视频生成

最近，来自 Google、哥本哈根大学、牛津大学等机构的研究者提出了 VGGRPO（Visual Geometry GRPO，收录于 ECCV 2026）。这项工作聚焦于一个核心问题：如何在不牺牲预训练模型泛化能力的前提下，高效地提升视频生成的几何一致性，并使其适用于动态场景。其核心思路是，在隐空间（latent space）中利用 4D 几何奖励，进行几何感知的视频后训练。

来自主题: AI技术研报

9078 点击 2026-07-18 10:09

FreeStyle来了！从社区LoRA中挖掘风格与内容，让双参考图像生成更可控

最近，一篇名为 FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining 的工作引起了不少关注。换句话说，FreeStyle 研究的是 style-content dual-reference generation，也就是「内容 - 风格双参考生成」。

来自主题: AI技术研报

7359 点击 2026-07-18 10:09

RoboTwin原班团队再下场，构建具身评测珠峰

曾推出 RoboTwin 系列基准的团队发布了 RoboDojo，一套统一覆盖仿真与真实机器人操作的具身智能评测体系。它包含 42 个仿真任务、18 个真实机器人任务，并将 30 个代表性机器人策略放到同一套标准下比较。

来自主题: AI技术研报

8389 点击 2026-07-18 10:08

几亿美金砸出来的硅谷大模型，被一台相机干翻了！

数亿美金，竟输给了一台相机？

来自主题: AI技术研报

6016 点击 2026-07-17 11:03

全球首个！银河通用新框架仅需人类视频即可部署，特斯拉蚌埠住了

终于，现学现用的风也是吹到了具身智能。

来自主题: AI技术研报

8327 点击 2026-07-17 10:41

机器人需要「看到三维未来」！RynnWorld-4D重塑4D具身世界模型

近两年，视频生成模型在具身智能领域受到持续关注。从 UniPi、SuSIE 到各类 action-conditioned video generation 变体，其核心思路一致：先由模型生成一段未来视频，再从中提取动作信号供机器人执行。

来自主题: AI技术研报

9148 点击 2026-07-17 10:12

让VLA更懂接触，优理奇UniTac让机器人拥有“触觉想象力”

机器人，也开始拥有“触觉想象力”了。

来自主题: AI技术研报

7275 点击 2026-07-17 10:11

ECCV'26| 看起来会动，还要动得合理：从生成模型中主动寻找物理证据

PhyMAGIC通过让物体动起来，从视频中提取物理证据，帮助准确推断材料属性。它结合图生视频与视觉语言模型，生成针对性运动探针，并不断修正物理参数，最终构建出可微分的3D动态模型，实现更符合现实的视频生成。

来自主题: AI技术研报

5209 点击 2026-07-17 10:09

让动态投机解码不再局限于DSpark：LightSpec首个开源动态MTP系统实现

随着 DeepSeek 发布 DSpark，动态 MTP（多 Token 预测）成为了对抗高并发、提升 GPU 利用率的绝对焦点。然而，DSpark 高度绑定特定模型且需要额外训练。

来自主题: AI技术研报

8762 点击 2026-07-17 10:08

统计学20年悬案，GPT-5.6用90分钟破解！伯克利教授直呼「心塞」

困扰统计学界整整20年的核心悬案，被AI击碎了。

来自主题: AI技术研报

9662 点击 2026-07-16 14:55

Lychee-FD：哈工大张民教授团队在全双工语音大模型领域取得重要突破，斩获ACL 2026杰出论文奖

全双工语音对话是人类最自然的交流方式，是语音对话研究的梦想。相比文本输入，语音天然更接近人的交流方式，但现有语音对话常常停留在 “一问一答、听完再说” 的轮次式交互范式。

来自主题: AI技术研报

9357 点击 2026-07-16 14:55

分享一下我现在随时随地让Agent干活的远程操控方案。

昨天那篇文章，我说了一下我现在用Agent的日常。

来自主题: AI技术研报

8795 点击 2026-07-16 14:46

全世界都在说超越了 PI，可他三个月没出新东西了。

大家好，我是瓦力，具身算法研究员。我有个习惯，隔三差五都会去 PI 的官网刷一下，看他有没有新东西。最近这三个月，官网主页是一动没动，停在四月的 π0.7。

来自主题: AI技术研报

6071 点击 2026-07-16 14:45

腾讯发布两大具身智能基座模型，VLM&RxBrain让机器人更懂现实世界

7 月 15 日，腾讯 Robotics X 实验室以及福田实验室联合腾讯混元推出两款具身智能基座模型 —— 具身 VLM 基座模型 Hy-Embodied-VLM-1.0 以及具身世界认知基座模型 Hy-Embodied-RxBrain-1.0，不仅让具身大脑能够 “看” 懂现实世界，还学会同时推理和想象。

来自主题: AI技术研报

9570 点击 2026-07-16 10:31