AI资讯新闻榜单内容搜索-长视频

ICML 2025 | 长视频理解新SOTA！蚂蚁&人大开源ViLAMP-7B，单卡可处理3小时视频

在视觉语言模型（Vision-Language Models，VLMs）取得突破性进展的当下，长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例，仅需数分钟即可产生逾百万的视觉 token，这已远超主流大语言模型 4K-128K 的上下文处理极限。

来自主题: AI技术研报

7436 点击 2025-05-13 08:54

迈向长上下文视频生成！NUS团队新作FAR同时实现短视频和长视频预测SOTA，代码已开源

目前的视频生成技术大多是在短视频数据上训练，推理时则通过滑动窗口等策略，逐步扩展生成的视频长度。然而，这种方式无法充分利用视频的长时上下文信息，容易导致生成内容在时序上出现潜在的不一致性。

来自主题: AI技术研报

7794 点击 2025-04-23 14:19

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

商汤最新升级的日日新SenseNova V6解锁的新能力—— 原生多模态通用大模型，采用6000亿参数MoE架构，实现文本、图像和视频的原生融合。从性能评测来看，SenseNova V6已经在纯文本任务和多模态任务中，多项指标均已超越GPT-4.5、Gemini 2.0 Pro，并全面超越DeepSeek V3：

来自主题: AI资讯

10776 点击 2025-04-10 23:17

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

多模态视频异常理解任务，又有新突破！

来自主题: AI技术研报

10004 点击 2025-04-08 15:01

多榜单登顶！华为 & 哈工深团队提出 AdaReTaKe，突破长视频理解极限

随着视频内容的重要性日益提升，如何处理理解长视频成为多模态大模型面临的关键挑战。长视频理解能力，对于智慧安防、智能体的长期记忆以及多模态深度思考能力有着重要价值。

来自主题: AI技术研报

7985 点击 2025-04-05 14:07

AI理解27分钟长视频超越GPT-4o，港理工新国立开源新框架：角色化推理+链式LoRA

AI能像人类一样理解长视频。

来自主题: AI技术研报

7988 点击 2025-04-02 14:54

千帧长视频时代到来！MIT全新扩散算法让任意模型突破时长极限

进入到 2025 年，视频生成（尤其是基于扩散模型）领域还在不断地「推陈出新」，各种文生视频、图生视频模型展现出了酷炫的效果。其中，长视频生成一直是现有视频扩散的痛点。

来自主题: AI技术研报

8500 点击 2025-02-26 13:39

Llama都在用的RoPE有了视频版，复旦上海AI Lab等提出长视频理解/检索绝佳拍档

Llama都在用的RoPE（旋转位置嵌入）被扩展到视频领域，长视频理解和检索更强了。

来自主题: AI技术研报

5680 点击 2025-02-20 10:29

单卡3090帮你一口气看完《黑悟空》，港大百度打造超长视频理解引擎VideoRAG

今天向大家介绍一项来自香港大学黄超教授实验室的最新科研成果 VideoRAG。这项创新性的研究突破了超长视频理解任务中的时长限制，仅凭单张 RTX 3090 GPU (24GB) 就能高效理解数百小时的超长视频内容。

来自主题: AI技术研报

6669 点击 2025-02-14 10:04

生成越长越跑偏？浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。

来自主题: AI技术研报

9711 点击 2025-01-17 11:14