AI资讯新闻榜单内容搜索-模型

多模态检索新突破，用软标签打破传统刚性映射约束，全面超越CLIP｜AAAI 2026 Oral

基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2。该方法首先通过全局检索构建潜在困难负例集，随后创新性地引入“MLLM-as-a-Judge”机制：利用MLLM对查询-候选对进行语义对齐评估，生成软语义匹配分数。

来自主题: AI技术研报

6776 点击 2025-10-06 21:53

AI花17小时写了篇30页学术论文！自主选题，包含实验，还符合APA格式规范

不是拼凑知识点，AI这次是真搞研究。一个叫Virtuous Machines的AI系统，花了17小时、114美元，找了288个真人做实验，写了一篇30页的学术论文。而且还是从选题到成稿全自动化速通！？

来自主题: AI技术研报

11004 点击 2025-10-06 19:53

谈「AI抖音」尚早，Sora 2们会先改变影视行业

现在AI给影视行业带来的变化，就像当年从胶片到数字的革新一样。作者 | 李威（北京）国庆假期刚开始，Sora 2就引爆了整个AI圈子。这个新的视频模型带来了对现实世界更精准的呈现，有更强的可控性

来自主题: AI资讯

10564 点击 2025-10-06 19:38

CAIR开源发布超声基座大模型EchoCare“聆音”，10余项医学任务性能登顶

2025年9月17日，中国科学院香港创新研究院人工智能与机器人创新中心（CAIR）在香港正式开源发布其最新科研成果——EchoCare“聆音”超声基座大模型（简称“聆音”）。该模型基于超过450万张、涵盖50多个人体器官的大规模超声影像数据集训练而成，在器官识别、器官分割、病灶分类等10余项典型超声医学任务测试中表现卓越，性能全面登顶。

来自主题: AI技术研报

9819 点击 2025-10-06 15:53

Insta360最新全景综述：全景视觉的挑战、方法与未来

本文作者团队来自 Insta360 影石研究院及其合作高校。目前，Insta360 正在面向世界模型、多模态大模型、生成式模型等前沿方向招聘实习生与全职算法工程师，欢迎有志于前沿 AI 研究与落地的同

来自主题: AI技术研报

8158 点击 2025-10-06 14:46

1.5B推理模型新SOTA，RL训练新解法打破「简单题过拟合、难题学不动」的魔咒

QuestA（问题增强）引入了一种方法，用于提升强化学习中的推理能力。通过在训练过程中注入部分解题提示，QuestA 实现两项重大成果

来自主题: AI技术研报

9251 点击 2025-10-06 13:54

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型，推动自动驾驶迈向视觉推理

面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介，易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive（FutureSightDrive）提出 “时空视觉 CoT”（Spatio-Temporal Chain-of-Thought），让模型直接 “以图思考”，用统一的未来图像帧作为中间推理步骤，联合未来场景与感知结果进行可视化推理。

来自主题: AI技术研报

9021 点击 2025-10-06 13:42

Jina官方MCP三板斧：搜、读、筛

模型上下文协议 (MCP) 是连接 LLM/Agent 与外部工具的通信标准。它允许 LLM 动态发现并调用 API工具，将他们串成一个完整的工作流，从而实现自主规划、推理与执行。上个月我们悄悄发布

来自主题: AI技术研报

10848 点击 2025-10-06 13:23

复旦、同济和港中文等重磅发布：强化学习在大语言模型全周期的全面综述

近年来，以强化学习为核心的训练方法显著提升了大语言模型（Large Language Models, LLMs）的推理能力与对齐性能，尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述，但其涵盖范围较为有限，未能全面总结强化学习在 LLMs 全生命周期中的作用机制。

来自主题: AI技术研报

8326 点击 2025-10-06 13:22

刚刚，全球AI生图新王诞生！腾讯混元图像3.0登顶了

全球文生图大模型王座，易主了。就在刚刚，LMArena竞技场发布了最新的文生图榜单，第一名来自中国，属于腾讯混元图像3.0！不仅超越了谷歌的Nano Banana，也超越了字节的Seedream和OpenAI的gpt-Image，在全球26个大模型中稳居第一。

来自主题: AI资讯

10835 点击 2025-10-05 21:36