AI资讯新闻榜单内容搜索-多模态

从“一句成片”到“长轨推演”：探究多模态智能体在长视频编辑中的应用

近年来，大语言模型（LLMs）在长篇视觉叙事中展现出卓越潜力，生产方式正迅速从单一模型生成转向面向生产的智能体系统。但长视频剪辑仍然是一个极难控制的长期任务。模型有时会在缺乏素材依据的情况下强行生成，甚至在面对明显断档的转场或人物不一致时依然“盲目拼接”。

来自主题: AI技术研报

9832 点击 2026-06-21 10:41

ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮，Holi-Spatial打造400万级空间多模态数据集

从原始视频出发，无需人工介入，自动生成 3D 重建、深度、2D mask、3D 框、实例描述、3D grounding 和空间问答。Holi-Spatial 试图把「空间智能」的数据生产，推进到自动化、可扩展的新阶段。

来自主题: AI技术研报

6519 点击 2026-06-19 10:16

DeepSeek识图模式全量上线，却认不出自家老板梁文锋

端午节前，DeepSeek 不出所料又有了新动作：官方平台全量推送了识图模式，手机端 App 也发布了更新，打开就能看到。此前，已经有不少网友体验过这个功能，但当时它还处在小范围的灰度测试阶段，只有部分用户能够在官方 App 或网页版里看到。但是今天下午，很多人都表示自己也能用了。

来自主题: AI资讯

9249 点击 2026-06-18 21:57

腾讯混元最新开源：一套RL框架打通多个模态，庞天宇团队新作

大语言模型的RL技术已日趋成熟，多模态生成模型的强化学习训练却仍在“各自为战”——图像扩散模型一套流程、视频生成另一套标准、VLM和LLM又有不同的技术栈。

来自主题: AI技术研报

7194 点击 2026-06-18 11:25

独家 | 乐聚和穹彻联手，具身智能数据基础设施公司刻行时空完成新一轮融资

AI 智件获悉，第三方数据基础设施公司「刻行时空」（下称“刻行”）已于今年1月完成新一轮融资，投资方包括穹彻智能、乐聚智能、线性资本。刻行成立于2022年，是一家面向具身智能的第三方数据基础设施公司，聚焦时空多模态数据的生产、治理、评估与合规交付。

来自主题: AI资讯

8147 点击 2026-06-17 14:11

视觉latent reasoning为什么不稳？这篇论文从特征空间找到了关键缺口

导读：视觉 latent reasoning 希望让多模态模型在内部生成连续 latent token，用这些中间表示补充多模态理解和推理任务中缺失的视觉证据。但问题在于，模型生成出来的 latent token 可能并不落在它原本熟悉的视觉输入空间里；如果模型无法稳定读取这些 token，它们就很难成为有效的中间视觉证据。

来自主题: AI技术研报

5739 点击 2026-06-16 13:56