AI技术研报-这里有最前沿的人工智能技术解读

大模型学会听音乐了！风格乐器精准分析，还能剪辑合成

能处理音乐的多模态大模型，终于出现了！

来自主题: AI技术研报

5942 点击 2024-01-22 15:26

谷歌2024新年目标曝光：一边做地表最强AI，一边裁更多员工

外媒曝出谷歌2024年公司目标：做全球最强AI，同时要再裁更多的员工。网友吐槽，CEO拿巨额工资，产品无故取消，却只知道开人。

来自主题: AI技术研报

6609 点击 2024-01-22 15:14

Agent触摸汉堡辨冷热，首次拥有类人感官！UCLA等发布3D多模态交互具身智能大模型

Sam Altman认为AGI很快就会降临，但若是没有感官兼备的AI何以称为智能？最近，UCLA等机构研究人员提出多模态具身智能大模型MultiPLY，AI可以知冷知热、辨音识物。

来自主题: AI技术研报

11635 点击 2024-01-22 15:05

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

Transformer 在大模型领域的地位可谓是难以撼动。不过，这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后，局限性也愈发凸显了。Mamba的出现，正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。

来自主题: AI技术研报

9523 点击 2024-01-22 14:43

傅盛揭穿OpenAI「阳谋」，引130万人围观！百亿参数模型帮老板打王者，一张3060就能跑

就在刚刚，OpenAI的最大秘密，被傅盛在130万人面前揭穿！百亿参数，竟能在企业级应用中媲美千亿级大模型；一张3060，就能帮老板打到「王者」！

来自主题: AI技术研报

11007 点击 2024-01-22 10:41

Llama 2打败GPT-4！Meta让大模型自我奖励自迭代，再证合成数据是LLM终局

AI训AI必将成为一大趋势。Meta和NYU团队提出让大模型「自我奖励」的方法，让Llama2一举击败GPT-4 0613、Claude 2、Gemini Pro领先模型。

来自主题: AI技术研报

9340 点击 2024-01-22 10:34

清华、小米、华为、 vivo、理想等多机构联合综述，首提个人LLM智能体、划分5级智能水平

IPA 已经成了现代智能手机不可或缺的标配，近期的一篇综述论文更是认为「个人 LLM 智能体会成为 AI 时代个人计算的主要软件范式」。

来自主题: AI技术研报

8447 点击 2024-01-21 14:32

Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强？这个框架一测便知

AI 视频生成，是最近最热门的领域之一。各个高校实验室、互联网巨头 AI Lab、创业公司纷纷加入了 AI 视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等视频生成模型的发布，更是让人眼前一亮。

来自主题: AI技术研报

8583 点击 2024-01-21 14:19

普林斯顿博士生高天宇指令微调进展速览：数据、算法和评估

自 ChatGPT 等大型语言模型推出以来，为了提升模型效果，各种指令微调方法陆续被提出。本文中，普林斯顿博士生、陈丹琦学生高天宇汇总了指令微调领域的进展，包括数据、算法和评估等。

来自主题: AI技术研报

8362 点击 2024-01-21 14:14

Stability AI杀回来了：视频生成新Demo效果惊人，网友：一致性超群

Stable Diffusion要王者归来了？

来自主题: AI技术研报

4321 点击 2024-01-21 14:08

被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

本文将介绍 MoE 的构建模块、训练方法以及在使用它们进行推理时需要考虑的权衡因素。

来自主题: AI技术研报

10337 点击 2024-01-20 15:16

一张照片，为深度学习巨头们定制人像图片

主题驱动的文本到图像生成，通常需要在多张包含该主题（如人物、风格）的数据集上进行训练，这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等，但这类方案因为需要更新整个网络或较长时间的定制化训练，往往无法很有效地兼容社区已有的模型，并无法在真实场景中快速且低成本应用。

来自主题: AI技术研报

11090 点击 2024-01-20 14:53

最佳开源模型刷新多项SOTA，首次超越Mixtral Instruct！「开源版GPT-4」家族迎来大爆发

Mixtral 8x7B模型开源后，AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B，在主流基准测试中击败了Mixtral Instruct。

来自主题: AI技术研报

9225 点击 2024-01-19 14:25

小扎砸数百亿美元猛攻开源AGI！狂掷60万块H100，爆50倍GPT-4算力

今天，小扎正式宣战「开源AGI」！下一代大模型Llama 3正在训练，年底将拥有35万块H100，届时算力总和达60万块H100。为了追赶OpenAI，成立十年的FAIR团队纳入GenAI，全力奔赴AGI。

来自主题: AI技术研报

7548 点击 2024-01-19 14:16

Rewind 的 PLG 增长之路，以及如何在 A 轮就得到 3.5 亿美元的估值？

大模型出现后，AI 实现全能个人助理的梦想似乎近在眼前，也有不少公司推出了相应的硬件/软件，比如此前我们介绍的 AI Pin 以及 Rewind。

来自主题: AI技术研报

8524 点击 2024-01-19 10:39

一篇文章搞懂LangChain

现在，为了实现相同的目标，我们有两个最著名的库，即 Haystack 和 LangChain，它们可以帮助我们创建基于大语言模型的端到端应用程序或流程。

来自主题: AI技术研报

8442 点击 2024-01-18 18:33

新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

Lightning Attention-2 是一种新型的线性注意力机制，让长序列的训练和推理成本与 1K 序列长度的一致。

来自主题: AI技术研报

3940 点击 2024-01-18 18:27

三个臭皮匠顶个诸葛亮？可能是真的，已证实混合多个小模型性能比肩GPT3.5

对模型参数量的迷信、执念也许可以放下了，混合多个小模型也是未来构造对话型 AI 的一个光明的方向。

来自主题: AI技术研报

8830 点击 2024-01-18 18:23

模型越大，性能越好？苹果自回归视觉模型AIM：没错

视觉模型，同样遵循「参数越多性能越强」的规律？刚刚，一项来自苹果公司的研究验证了这个猜想。

来自主题: AI技术研报

10488 点击 2024-01-18 18:19

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

还在苦苦寻找开源的机器人大模型？试试RoboFlamingo！

来自主题: AI技术研报

5109 点击 2024-01-17 14:03

GitHub本月最佳：使用电脑的新方式，已经获得3万7千星

Open Interpreter 允许LLM在您的计算机上运行代码来完成任务。这可能是人类使用电脑的新方式，一句人话，电脑开始帮人类完成任务。

来自主题: AI技术研报

5408 点击 2024-01-16 14:40

微软TaskWeaver开源框架：携手数据分析与行业定制，打造顶级Agent解决方案

TaskWeaver 能够将用户的自然语言请求巧妙地转化为可执行代码，并支持丰富的数据结构、动态插件选择以及专业领域适应的规划过程。

来自主题: AI技术研报

4375 点击 2024-01-16 14:22

开源模型新纪录：超越Mixtral 8x7B Instruct的模型来了

从 Llama、Llama 2 到 Mixtral 8x7B，开源模型的性能记录一直在被刷新。由于 Mistral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5，因此它也被认为是一种「非常接近 GPT-4」的开源选项。

来自主题: AI技术研报

8140 点击 2024-01-16 14:18

性能大涨20%！中科大「状态序列频域预测」方法：表征学习样本效率max｜NeurIPS 2023 Spotlight

SPF算法是一种基于状态序列频域预测的表征学习方法，利用状态序列的频域分布来显式提取状态序列数据中的趋势性和规律性信息，从而辅助表征高效地提取到长期未来信息。

来自主题: AI技术研报

9503 点击 2024-01-16 10:59

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

复旦团队进一步挖掘 RLHF 的潜力，重点关注奖励模型（Reward Model）在面对实际应用挑战时的表现和优化途径。

来自主题: AI技术研报

4393 点击 2024-01-16 10:16

Transformer的无限之路：位置编码视角下的长度外推综述

在自然语言处理（Natural Language Processing，NLP）领域，Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。

来自主题: AI技术研报

10210 点击 2024-01-16 10:13

Poe 获得 a16z 新一轮 7500 万美元融资，主要用于支付平台上的 Bot 创作者

刚刚，Quora CEO Adam D'Angelo 宣布 Quora 从 a16Z 获得 7500 万美元！Angelo 指出，他们希望通过这些目标来加速 AI 的主流应用，并为社会带来包括提高知识获取能力、民主化创意表达和加速经济增长在内的多种好处，这笔投资专门用于推动其 AI 聊天平台 Poe 的增长。

来自主题: AI技术研报

10706 点击 2024-01-10 18:51

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA｜AAAI24

如何从一段视频中找出感兴趣的片段？时序行为检测（Temporal Action Localization，TAL）是一种常用方法。过去TAL中的建模是片段甚至实例级的，而现在只要视频里的一帧就能实现，效果媲美全监督。

来自主题: AI技术研报

8820 点击 2024-01-08 14:33

告别逐一标注，一个提示实现批量图片分割，高效又准确

仅需一个任务描述，即可一键分割所有图片！

来自主题: AI技术研报

8419 点击 2024-01-08 14:20

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

Vista-LLaMA 在处理长视频内容方面的显著优势，为视频分析领域带来了新的解决框架。

来自主题: AI技术研报

4233 点击 2024-01-08 14:17

AI技术研报-这里有最前沿的人工智能技术解读

大模型学会听音乐了！风格乐器精准分析，还能剪辑合成

谷歌2024新年目标曝光：一边做地表最强AI，一边裁更多员工

Agent触摸汉堡辨冷热，首次拥有类人感官！UCLA等发布3D多模态交互具身智能大模型

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

傅盛揭穿OpenAI「阳谋」，引130万人围观！百亿参数模型帮老板打王者，一张3060就能跑

Llama 2打败GPT-4！Meta让大模型自我奖励自迭代，再证合成数据是LLM终局

清华、小米、华为、 vivo、理想等多机构联合综述，首提个人LLM智能体、划分5级智能水平

Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强？这个框架一测便知

普林斯顿博士生高天宇指令微调进展速览：数据、算法和评估

Stability AI杀回来了：视频生成新Demo效果惊人，网友：一致性超群

被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

一张照片，为深度学习巨头们定制人像图片

最佳开源模型刷新多项SOTA，首次超越Mixtral Instruct！「开源版GPT-4」家族迎来大爆发

小扎砸数百亿美元猛攻开源AGI！狂掷60万块H100，爆50倍GPT-4算力

Rewind 的 PLG 增长之路，以及如何在 A 轮就得到 3.5 亿美元的估值？

一篇文章搞懂LangChain

​新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

三个臭皮匠顶个诸葛亮？可能是真的，已证实混合多个小模型性能比肩GPT3.5

模型越大，性能越好？苹果自回归视觉模型AIM：没错

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

GitHub本月最佳：使用电脑的新方式 ，已经获得3万7千星

微软TaskWeaver开源框架：携手数据分析与行业定制，打造顶级Agent解决方案

开源模型新纪录：超越Mixtral 8x7B Instruct的模型来了

性能大涨20%！中科大「状态序列频域预测」方法：表征学习样本效率max｜NeurIPS 2023 Spotlight

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

Transformer的无限之路：位置编码视角下的长度外推综述

Poe 获得 a16z 新一轮 7500 万美元融资，主要用于支付平台上的 Bot 创作者

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA｜AAAI24

告别逐一标注，一个提示实现批量图片分割，高效又准确

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

GitHub本月最佳：使用电脑的新方式，已经获得3万7千星