AI技术研报-这里有最前沿的人工智能技术解读

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

来自中科大等单位的研究团队共同提出了用来有效评估多模态大模型预训练质量的评估指标 Modality Integration Rate（MIR），能够快速准确地评估多模态预训练的模态对齐程度。

来自主题: AI技术研报

5156 点击 2024-11-04 17:13

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

利用语言模型调用工具，是实现通用目标智能体（general-purpose agents）的重要途径，对语言模型的工具调用能力提出了挑战。

来自主题: AI技术研报

4806 点击 2024-11-04 17:09

Jim Fan全华人团队HOVER问世，1.5M小模型让机器人获「潜意识」！

来自英伟达、CMU、UC伯克利等的全华人团队提出一个全新的人形机器人通用的全身控制器HOVER，仅用一个1.5M参数模型就可以控制人形机器人的身体。人形机器人的运动和操作之前只是外表看起来类人，现在有了HOVER，连底层运动逻辑都可以类人了！

来自主题: AI技术研报

4816 点击 2024-11-04 17:02

UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪

39年来一个看似理所当然的数学理论，刚刚被数学家证伪！UCLA和MIT的研究者证实：概率论中众所周知的假设「上下铺猜想」是错的。有趣的是，他们用AI已经证明到了99.99%的程度，但最终，靠的还是理论论证。

来自主题: AI技术研报

5415 点击 2024-11-04 16:29

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

人类只需要演示五次，就能让机器人学会一项复杂技能。英伟达实验室，提出了机器人训练数据缺乏问题的新解决方案——DexMimicGen。

来自主题: AI技术研报

7790 点击 2024-11-04 15:36

解决真实GitHub Issue能力登顶，字节豆包MarsCode团队分享背后工程实践，踩过的坑也分享了

解决真实GitHub Issue的基准测试，字节家的豆包MarsCode Agent悄悄登顶了。SWE-Bench，一个由普林斯顿大学提出的极具挑战性的Benchmark，近期受到工业界、学术界和创业团队的广泛关注。

来自主题: AI技术研报

6343 点击 2024-11-04 15:29

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

与最先进的开源方法甚至闭源模型 GPT-4o 相比，MMedAgent 在各种医疗任务中实现了卓越的性能。此外，MMedAgent 在更新和集成新医疗工具方面表现出效率。

来自主题: AI技术研报

8525 点击 2024-11-04 09:49

中国企业的生成式AI应用陷阱：只有场景想象，没有业务目的

中国企业对于生成式AI应用场景的了解都来自于ChatGPT的传说，但中国企业能使用的GenAI资源与ChatGPT却没有关系。直截了当地说，中国企业目前能够使用的GenAI资源都比GPT-4要差很多，注意不是“有差距”，而是“差很多”，这是中国企业考虑生成式AI问题的基本前提。

来自主题: AI技术研报

5664 点击 2024-11-04 09:37

RAG新突破：块状注意力机制实现超低延迟检索增强

RAG，AI，模型训练，人工智能

来自主题: AI技术研报

9935 点击 2024-11-03 18:01

幻觉不一定有害，新框架用AI的「幻觉」优化图像分割技术

在人工智能领域，大型预训练模型（如 GPT 和 LLaVA）的 “幻觉” 现象常被视为一个难以克服的挑战，尤其是在执行精确任务如图像分割时。

来自主题: AI技术研报

9589 点击 2024-11-03 17:53

LLM 比之前预想的更像人类，竟也能「三省吾身」

AI，LLM，模型训练，人工智能

来自主题: AI技术研报

8114 点击 2024-11-03 17:41

2024 AI年度报告发布，附十大预测：人形机器人热度下降，英伟达维持霸主地位

AI技术日新月异，像Netflix这样的大公司已经开始用AI制作特效，而新的AI模型也在游戏和科学研究中超越了人类。未来一年，我们可能会看到没有编程技能的人也能创造热门应用，甚至AI创作的歌曲也可能登上音乐排行榜前十。

来自主题: AI技术研报

6401 点击 2024-11-03 14:55

大模型也冲“奥斯卡”：港科大腾讯等提出AI角色扮演全景综述，四方面剖析关键细节

AI界也有了自己的“奥斯卡”，哪家大模型角色扮演更入戏？来自香港科技大学、腾讯、新加坡管理大学的团队提出新综述—— 不仅系统性地回顾了角色扮演语言模型的发展历程，还对每个阶段的关键进展进行了深入剖析，展示了这些进展如何推动模型逐步实现更复杂、更逼真的角色扮演。

来自主题: AI技术研报

7151 点击 2024-11-03 14:39

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

Transformer自问世后就大放异彩，但有个小毛病一直没解决：总爱把注意力放在不相关的内容上，也就是信噪比低。现在微软亚研院、清华团队出手，提出全新改进版Differential Transformer，专治这个老毛病，引起热议。

来自主题: AI技术研报

4465 点击 2024-11-03 14:32

李虹团队发布两款AI模型，预测单药和联合用药疗效

中国科学院上海营养与健康研究所李虹研究组多年来在抗癌药物疗效建模方向持续深耕，发表了基于分子组学预测药物响应和肝癌药物基因组相关的系列论文。但前期研究表明肿瘤用药的计算分析仍存在诸多挑战，例如：肿瘤临床前模型和病人存在差异，计算模型缺乏泛化能力；药物组合的作用机制复杂搜索空间大，对药物联用协同效果的准确和稳健估计仍很困难。

来自主题: AI技术研报

6342 点击 2024-11-03 11:24

万亿市场！开源AI大模型发展研究报告 2024

随着开源技术占据各大新兴领域的技术路线，其不断丰富人工智能领域的应用场景。 2023年，Meta 相继发布 Llama 和 Llama2，很快成为广受欢迎的开源大模型，也成为许多模型的基座模型。

来自主题: AI技术研报

7912 点击 2024-11-03 11:09

大模型压缩KV缓存新突破，中科大提出自适应预算分配，工业界已落地vLLM框架

改进KV缓存压缩，大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV，通过自适应预算分配算法来优化KV缓存的驱逐过程，以提高推理效率。

来自主题: AI技术研报

5543 点击 2024-11-02 19:10

3B模型打通机器人任督二脉！冲咖啡叠衣服都能干，7种形态适配，OpenAI也投了

只要一个3B参数的大模型，就能控制机器人，帮你搞定各种家务。叠衣服冲咖啡都能轻松拿捏，而且全都是由模型自主控制，不需要遥控。关键是，这还是个通用型的机器人控制模型，不同种类的机器人都能“通吃”。

来自主题: AI技术研报

5776 点击 2024-11-02 19:06

MPDS：提升电影海报生成效率的新型数据集

MPDS（Movie Posters Dataset）是一个创新的电影海报数据集，旨在解决现有图像生成模型在制作电影海报时面临的挑战。

来自主题: AI技术研报

11879 点击 2024-11-02 17:21

Allegro：开创商业级视频生成新纪元

Allegro 是一款先进的商业级视频生成模型，由Rhymes AI团队开发。它通过将描述性文本转换为动态视觉内容，为用户提供了一种灵活且可控的视频创作方法。

来自主题: AI技术研报

7823 点击 2024-11-02 17:15

NeurIPS 2024｜浙大 & 微信 & 清华：彻底解决扩散模型反演问题

随着扩散生成模型的发展，人工智能步入了属于 AIGC 的新纪元。扩散生成模型可以对初始高斯噪声进行逐步去噪而得到高质量的采样。当前，许多应用都涉及扩散模型的反演，即找到一个生成样本对应的初始噪声。当前的采样器不能兼顾反演的准确性和采样的质量。

来自主题: AI技术研报

8097 点击 2024-11-02 17:08

多图场景用DPO对齐！上海AI实验室等提出新方法，无需人工标注

多图像场景也能用DPO方法来对齐了！由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。

来自主题: AI技术研报

5920 点击 2024-11-01 20:53

清华团队革新MoE架构！像搭积木一样构建大模型，提出新型类脑稀疏模块化架构

探索更高效的模型架构， MoE是最具代表性的方向之一。 MoE架构的主要优势是利用稀疏激活的性质，将大模型拆解成若干功能模块，每次计算仅激活其中一小部分，而保持其余模块不被使用，从而大大降低了模型的计算与学习成本，能够在同等计算量的情况下产生性能优势。

来自主题: AI技术研报

4994 点击 2024-11-01 17:11

AutoStory生成漫画，解决人物生成一致性问题

本文介绍了一种自动化故事可视化系统，可以生成多样化、高质量、一致性强的故事图像，且需要最少的人工干预。

来自主题: AI技术研报

6486 点击 2024-11-01 15:04

打破RLHF瓶颈，克服奖励欺骗！Meta发布全新后训练方式CGPO，编程水平直升5%

CGPO框架通过混合评审机制和约束优化器，有效解决了RLHF在多任务学习中的奖励欺骗和多目标优化问题，显著提升了语言模型在多任务环境中的表现。CGPO的设计为未来多任务学习提供了新的优化路径，有望进一步提升大型语言模型的效能和稳定性。

来自主题: AI技术研报

4879 点击 2024-11-01 14:54

吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题

强化学习（RL）对大模型复杂推理能力提升有关键作用，然而，RL 复杂的计算流程以及现有系统局限性，也给训练和部署带来了挑战。

来自主题: AI技术研报

5681 点击 2024-11-01 14:50

NeurIPS 2024 | 机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

对于人类而言，一旦掌握了 “打开瓶盖” 的动作，面对 “拧紧螺丝” 这样的任务通常也能游刃有余，因为这两者依赖于相似的手部动作。然而，对于机器人来说，即使是这样看似简单的任务转换依然充满挑战。例如，换成另一种类型的瓶盖，机器人可能无法成功打开。这表明，目前的机器人方法尚未充分让模型学习到任务的内在执行逻辑，而只是单纯的依赖于数据拟合。

来自主题: AI技术研报

8477 点击 2024-11-01 13:05

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

在奖励中减去平均奖励

来自主题: AI技术研报

8806 点击 2024-11-01 12:43

Unbounded：来自Google的AI驱动角色模拟无限游戏

Unbounded 是由 Google 研发的一个创新的角色模拟生成性无限游戏，它通过采用最新的生成模型技术，突破了传统视频游戏的局限。

来自主题: AI技术研报

9807 点击 2024-11-01 12:34

Ferret-UI 2：苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2 是苹果研究团队最新发表的一款先进的多模态大型语言模型（MLLM），旨在实现跨多个平台的通用用户界面（UI）理解。

来自主题: AI技术研报

8867 点击 2024-11-01 12:27

AI技术研报-这里有最前沿的人工智能技术解读

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

Jim Fan全华人团队HOVER问世，1.5M小模型让机器人获「潜意识」！

UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪

英伟达团队机器训练新方法！仅5次演示让机器生成1000个新demo，李飞飞高徒与徒孙联手出品

解决真实GitHub Issue能力登顶，字节豆包MarsCode团队分享背后工程实践，踩过的坑也分享了

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

中国企业的生成式AI应用陷阱：只有场景想象，没有业务目的

RAG新突破：块状注意力机制实现超低延迟检索增强

幻觉不一定有害，新框架用AI的「幻觉」优化图像分割技术

LLM 比之前预想的更像人类，竟也能「三省吾身」

2024 AI年度报告发布，附十大预测：人形机器人热度下降，英伟达维持霸主地位

大模型也冲“奥斯卡”：港科大腾讯等提出AI角色扮演全景综述，四方面剖析关键细节

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

李虹团队发布两款AI模型，预测单药和联合用药疗效

万亿市场 ！开源AI大模型发展研究报告 2024

大模型压缩KV缓存新突破，中科大提出自适应预算分配，工业界已落地vLLM框架

3B模型打通机器人任督二脉！冲咖啡叠衣服都能干，7种形态适配，OpenAI也投了

MPDS：提升电影海报生成效率的新型数据集

Allegro：开创商业级视频生成新纪元

NeurIPS 2024｜浙大 & 微信 & 清华：彻底解决扩散模型反演问题

多图场景用DPO对齐！上海AI实验室等提出新方法，无需人工标注

清华团队革新MoE架构！像搭积木一样构建大模型，提出新型类脑稀疏模块化架构

AutoStory生成漫画，解决人物生成一致性问题

打破RLHF瓶颈，克服奖励欺骗！Meta发布全新后训练方式CGPO，编程水平直升5%

吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题

NeurIPS 2024 | 机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

Unbounded：来自Google的AI驱动角色模拟无限游戏

Ferret-UI 2：苹果最新跨平台通用GUI理解多模态大模型

万亿市场！开源AI大模型发展研究报告 2024