AI资讯新闻榜单内容搜索-CVPR

CVPR 2026 Oral｜横扫室内3D场景，港科大（广州）打造单目开放词汇占据预测新SOTA

在具身智能研究中，如何让智能体精准理解周围环境的精细几何结构与开放语义信息，始终是具身感知的核心难题。近年来，语义占据预测（Semantic Occupancy Prediction）将稠密几何与语义信息统一到三维体素网格中，用于构建 3D 语义占据地图，为机器人的空间推理、导航与交互操作提供了场景表达基础。

来自主题: AI技术研报

10534 点击 2026-05-06 09:07

CVPR 2026 | 告别倾听「扑克脸」，UniLS框架来了，刷新数字人对话SOTA

在游戏 NPC、虚拟主播、在线客服等数字人对话场景中，倾听时的 “扑克脸” 问题一直是行业长期痛点 —— 虚拟人说话时口型可以做到精准同步，但倾听时却表情僵硬、毫无反应，严重影响对话的自然感和沉浸感。盛大 AI 研究院（东京）与东京大学联合提出 UniLS（Unified Listening and Speaking），首个仅凭双轨音频即可端到端同时驱动说话和倾听面部动作的统一框架。

来自主题: AI技术研报

9877 点击 2026-04-24 09:15

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token | 浙大&上海AI Lab

这个生物医学视觉推理框架，被CVPR 2026接收了！

来自主题: AI技术研报

6719 点击 2026-04-22 09:11

CVPR 2026｜突破3D空间推理瓶颈：北大联合南科大提出QuatRoPE，让大模型精准理解三维物体关系

本文主要介绍来自该团队的最新论文：Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models。

来自主题: AI技术研报

6298 点击 2026-04-20 14:04

CVPR 2026 | 摆脱相机依赖！M4Human推动毫米波人体感知迈向新阶段

想象几个并不遥远的场景：医院的病房里，刚做完手术的患者正在练习下床、走动，智能系统通过摄像头捕捉他的动作，判断步态是否稳定、有没有跌倒风险；回到家，在卧室或浴室这样私密的空间里，老人起身、转身、洗漱，甚至意外滑倒的瞬间，也可能被视觉传感器记录，只为了让 AI 能更早发现异常；

来自主题: AI技术研报

8890 点击 2026-04-13 13:50

36.4万超声图文对！中国团队构建首个大规模超声专属数据集，让AI真正读懂临床诊断语义丨CVPR'26

超声领域也有大模型了！

来自主题: AI技术研报

9230 点击 2026-04-13 09:38

库里被「采访」、杨紫被「演」短剧？别慌！蚂蚁AI鉴真拿下CVPR 2026冠军，专治黑产

最近，计算机视觉领域的顶级会议 CVPR 2026 的 NTIRE 鲁棒性 AIGC 图像检测挑战赛（ Robust AI-Generated Image Detection in the Wild Challenge ）结果出炉。蚂蚁集团 AI 安全实验室的队伍 MICV 凭借在鲁棒性测试样本上 ROC AUC 达到了惊人的 0.9723，成功摘得「复杂真实场景鲁棒性样本测试」挑战赛的冠军。

来自主题: AI技术研报

10198 点击 2026-04-10 15:57

视频生成不再「断片」：OneStory给模型装上「选择性记忆」，跨镜头讲故事人物场景始终如一丨CVPR'26

最近，来自Meta与University of Copenhagen的研究者提出了OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory（收录于CVPR 2026）。这项工作聚焦于一个核心问题：如何在生成多镜头视频时，有效保留长程跨镜头上下文，从而实现更强的叙事一致性。

来自主题: AI技术研报

7184 点击 2026-04-10 15:36

CVPR 2026｜1分钟单图变4D视频！AI看图直接脑补物理规律

让静态的图片变成三维物体并动起来已经不算新鲜，但如果让图片不仅动起来，还能完美遵循现实世界的物理规律（比如蛋糕的Q弹、沙堆的散落、石雕的坚硬）呢？

来自主题: AI技术研报

6540 点击 2026-04-08 16:27

一句话生成无限逼真3D场景！匹兹堡大学新作直击VLM空间推理软肋丨CVPR'26

VLM看图像描述头头是道，一遇到3D空间推理就“晕菜”。

来自主题: AI技术研报

6562 点击 2026-04-08 09:15