AI技术研报-这里有最前沿的人工智能技术解读

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

自从大型 Transformer 模型逐渐成为各个领域的统一架构，微调就成为了将预训练大模型应用到下游任务的重要手段

来自主题: AI技术研报

11536 点击 2024-07-12 17:47

英伟达又赚到了！FlashAttention3来了：H100利用率飙升至75%

740 TFLOPS！迄今最强 FlashAttention 来了。

来自主题: AI技术研报

10691 点击 2024-07-12 17:45

生成式模型不只会「模仿」！哈佛、UCSB等最新成果：性能可超越训练集专家水平

生成式模型原本被设计来模仿人类的各种复杂行为，但人们普遍认为它们最多只能达到与其训练数据中的专家相当的水平。不过，最新的研究突破了这一限制，表明在特定领域，如国际象棋，通过采用低温采样技术，这些模型能够超越它们所学习的那些专家，展现出更高的能力。

来自主题: AI技术研报

10744 点击 2024-07-12 17:18

OpenAI机密五级AGI路线图曝光！GPT-4仍处L1，内部AI接近博士水平18个月诞生

OpenAI全新的AGI路线图，刚刚被曝出了！OpenAI将AI划分为5个等级，自称其AI模型正处于L1，但很快就会达到L2（推理者）。而根据其前研究员预测，五级AGI最快将在27年实现。

来自主题: AI技术研报

9495 点击 2024-07-12 17:05

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

时隔一年，FlashAttention又推出了第三代更新，专门针对H100 GPU的新特性进行优化，在之前的基础上又实现了1.5～2倍的速度提升。

来自主题: AI技术研报

10743 点击 2024-07-12 16:57

AI Agent满级进化！骑马种田、办公修图，样样精通，昆仑万维等发布通用Agent新框架

智能体又双叒叕进化了！这次，什么游戏都能玩，什么软件都能操控了。

来自主题: AI技术研报

11084 点击 2024-07-12 16:51

Llama3比GPT-4o更爱说谎，首个大模型“诚实性”评估基准来了 | 上海交大

评估大模型是否诚实的基准来了！

来自主题: AI技术研报

9356 点击 2024-07-12 00:59

大模型权威测试被曝翻车！更偏袒GPT-4等闭源模型，连提示词都区别对待

大模型权威测试，翻车了？！ HuggingFace都在用的MMLU-PRO，被扒出评测方法更偏向闭源模型，被网友直接在GitHub Issue提出质疑。

来自主题: AI技术研报

9119 点击 2024-07-12 00:44

CVPR世界第二仅次Nature！谷歌2024学术指标出炉，NeurIPS、ICLR跻身前十

一年一度谷歌学术指标公布了！Nature年年霸榜，而今年与以往不同的是，国际学术顶会的排名大幅提升，CVPR位居第二，超越Science仅次于Nature。另外，TOP 20中，共有五大顶会入选，被引最高论文与大模型时代下前沿技术，一脉相承。

来自主题: AI技术研报

10423 点击 2024-07-11 21:37

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

近年来，人物动作生成的研究取得了显著的进展，在众多领域，如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而，现有工作大多只关注动作本身，以场景和动作类别同时作为约束条件的研究依然处于起步阶段。

来自主题: AI技术研报

10442 点击 2024-07-11 20:31

这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试

四大 VLM，竟都在盲人摸象？

来自主题: AI技术研报

10868 点击 2024-07-11 20:26

GitHub 8k Star，一作实习生，字节这个大模型成果被苹果选中了

近日，字节跳动大模型团队开发的成果 Depth Anything V2 ，入选苹果公司 Core ML 模型库，目前已呈现在开发者相关页面中。

来自主题: AI技术研报

9881 点击 2024-07-11 20:20

DeepMind新方法：训练时间减少13倍，算力降低90%

大幅节省算力资源，又又又有新解了！！

来自主题: AI技术研报

6319 点击 2024-07-10 18:55

深度解析RAG大模型知识冲突，清华西湖大学港中文联合发布

随着人工智能和大型模型技术的迅猛发展，检索增强生成（Retrieval-Augmented Generation, RAG）已成为大型语言模型生成文本的一种主要范式。

来自主题: AI技术研报

11537 点击 2024-07-10 18:43

单一作者论文，谷歌提出百万专家Mixture，超越密集前馈、稀疏MoE

释放进一步扩展 Transformer 的潜力，同时还可以保持计算效率。

来自主题: AI技术研报

10876 点击 2024-07-10 18:39

LeCun新作：神经网络在实践中的灵活性到底有多大？

神经网络拟合数据的能力受哪些因素影响？CNN一定比Transformer差吗？ReLU和SGD还有哪些神奇的作用？近日，LeCun参与的一项工作向我们展示了神经网络在实践中的灵活性。

来自主题: AI技术研报

10237 点击 2024-07-10 18:23

要把开源管起来，还要“一举两得”限制中国，加州这个SB-1047法案被LeCun等大佬骂惨了

Meta首席人工智能科学家、深度学习之父Yann LeCun又开喷了。

来自主题: AI技术研报

10114 点击 2024-07-09 17:35

几分钟生成四维内容，还能控制运动效果：北大、密歇根提出DG4D

近期，商汤科技 - 南洋理工大学联合 AI 研究中心 S-Lab ，上海人工智能实验室，北京大学与密歇根大学联合提出 DreamGaussian4D（DG4D），通过结合空间变换的显式建模与静态 3D Gaussian Splatting（GS）技术实现高效四维内容生成。

来自主题: AI技术研报

9346 点击 2024-07-09 17:27

单卡A100实现百万token推理，速度快10倍，这是微软官方的大模型推理加速

微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。

来自主题: AI技术研报

8018 点击 2024-07-09 17:24

像生物网络一样「生长」，具备「结构可塑性」的自组织神经网络来了

生物神经网络有一个重要的特点是高度可塑性，这使得自然生物体具有卓越的适应性，并且这种能力会影响神经系统的突触强度和拓扑结构。

来自主题: AI技术研报

9322 点击 2024-07-09 17:15

图神经网络加持，突破传统推荐系统局限！北大港大联合提出SelfGNN：有效降低信息过载与数据噪声影响

SelfGNN框架结合了图神经网络和个性化自增强学习，能够捕捉用户行为的多时间尺度模式，降低噪声影响，提升推荐系统鲁棒性。

来自主题: AI技术研报

7417 点击 2024-07-09 16:12

Meta新研究挑战CV领域基操：ViT根本不用patch，用像素做token效果更佳

下一代视觉模型会摒弃patch吗？Meta AI最近发表的一篇论文就质疑了视觉模型中局部关系的必要性。他们提出了PiT架构，让Transformer直接学习单个像素而不是16×16的patch，结果在多个下游任务中取得了全面超越ViT模型的性能。

来自主题: AI技术研报

6047 点击 2024-07-09 16:03

RAG微调Llama 3竟超越GPT-4！英伟达GaTech华人学者提出RankRAG框架

来自佐治亚理工学院和英伟达的两名华人学者带队提出了名为RankRAG的微调框架，简化了原本需要多个模型的复杂的RAG流水线，用微调的方法交给同一个LLM完成，结果同时实现了模型在RAG任务上的性能提升。

来自主题: AI技术研报

6464 点击 2024-07-09 15:50

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

超越Transformer和Mamba的新架构，刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法，直接替代了注意力机制，语言模型方法从此或将彻底改变。

来自主题: AI技术研报

7475 点击 2024-07-09 15:41

新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型

新架构，再次向Transformer发起挑战！

来自主题: AI技术研报

7296 点击 2024-07-09 15:11

ChatGPT无法取代人类程序员！ IEEE 35页论文测出困难编码正确率仅为0.66%

6月，IEEE刊登了一篇对ChatGPT代码生成任务进行系统评估的论文，数据集就是程序员们最爱的LeetCode题库。研究揭示了LLM在代码任务中出现的潜在问题和能力局限，让我们能够对模型做出进一步改进，并逐渐了解使用ChatGPT写代码的最佳姿势。

来自主题: AI技术研报

6326 点击 2024-07-09 00:54

陶哲轩点破「天机」：不懂数学别想靠ChatGPT飞升！

冲锋在AI辅助数学研究第一线的陶哲轩，近日又有「神总结」：ChatGPT提升的，是我们在编码、图表等次要任务上的能力；而真要搞好数学研究，基础不扎实的话，AI也是没用的。

来自主题: AI技术研报

7632 点击 2024-07-09 00:41

院士领衔推出大模型的第3种记忆：比参数存储和RAG都便宜，2.4B模型越级打13B

给大模型加上第三种记忆格式，把宝贵的参数从死记硬背知识中解放出来！

来自主题: AI技术研报

8060 点击 2024-07-09 00:24

北大千问团队推出数学专用版CriticGPT，“找茬”让大模型进步更快

批评不仅能让人进步，也能让大模型的能力提升。

来自主题: AI技术研报

8762 点击 2024-07-08 22:44

相隔3000英里，用苹果头显遥控机器人！UCSD、MIT华人团队开源TeleVision

现实中，机器人收据收集可以通过远程操控实现。来自UCSD、MIT的华人团队开发了一个通用框架Open-TeleVision，可以让你身临其境操作机器人，即便相隔3000英里之外。

来自主题: AI技术研报

9782 点击 2024-07-07 16:55

AI技术研报-这里有最前沿的人工智能技术解读

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

英伟达又赚到了！FlashAttention3来了：H100利用率飙升至75%

生成式模型不只会「模仿」！哈佛、UCSB等最新成果：性能可超越训练集专家水平

OpenAI机密五级AGI路线图曝光！GPT-4仍处L1，内部AI接近博士水平18个月诞生

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

AI Agent满级进化！骑马种田、办公修图，样样精通，昆仑万维等发布通用Agent新框架

Llama3比GPT-4o更爱说谎，首个大模型“诚实性”评估基准来了 | 上海交大

大模型权威测试被曝翻车！更偏袒GPT-4等闭源模型，连提示词都区别对待

CVPR世界第二仅次Nature！谷歌2024学术指标出炉，NeurIPS、ICLR跻身前十

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试

GitHub 8k Star，一作实习生，字节这个大模型成果被苹果选中了

DeepMind新方法：训练时间减少13倍，算力降低90%

深度解析RAG大模型知识冲突，清华西湖大学港中文联合发布

单一作者论文，谷歌提出百万专家Mixture，超越密集前馈、稀疏MoE

LeCun新作：神经网络在实践中的灵活性到底有多大？

要把开源管起来，还要“一举两得”限制中国，加州这个SB-1047法案被LeCun等大佬骂惨了

几分钟生成四维内容，还能控制运动效果：北大、密歇根提出DG4D

单卡A100实现百万token推理，速度快10倍，这是微软官方的大模型推理加速

像生物网络一样「生长」，具备「结构可塑性」的自组织神经网络来了

图神经网络加持，突破传统推荐系统局限！北大港大联合提出SelfGNN：有效降低信息过载与数据噪声影响

Meta新研究挑战CV领域基操：ViT根本不用patch，用像素做token效果更佳

RAG微调Llama 3竟超越GPT-4！英伟达GaTech华人学者提出RankRAG框架

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑， 一夜推翻Transformer

新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型

ChatGPT无法取代人类程序员！ IEEE 35页论文测出困难编码正确率仅为0.66%

陶哲轩点破「天机」：不懂数学别想靠ChatGPT飞升！

院士领衔推出大模型的第3种记忆：比参数存储和RAG都便宜，2.4B模型越级打13B

北大千问团队推出数学专用版CriticGPT，“找茬”让大模型进步更快

相隔3000英里，用苹果头显遥控机器人！UCSD、MIT华人团队开源TeleVision

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer