AI技术研报-这里有最前沿的人工智能技术解读

结构化表格也成模态！浙大TableGPT2开源，最强表格AI问世

现在正是多模态大模型的时代，图像、视频、音频、3D、甚至气象运动都在纷纷与大型语言模型的原生文本模态组合。而浙江大学及其计算机创新技术研究院的一个数十人团队也将结构化数据（包括数据库、数仓、表格、json 等）视为了一种独立模态。

来自主题: AI技术研报

6515 点击 2024-11-07 17:45

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题，超连接可通过动态调整不同层之间的连接权重，解决梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。在 Dense 模型和 MoE 模型预训练中，超连接方案展示出显著的性能提升效果，使收敛速度最高可加速 80%。

来自主题: AI技术研报

6396 点击 2024-11-07 17:41

价值万亿的具身智能市场，大佬们如何从世界模型下刀？

具身智能，简单来说，就是赋予 AI 一个「身体」，让这颗聪明的大脑在物理世界中行动自如。把这颗大脑升级成世界模型 —— 它拥有记忆、直觉和常识时，机器人可以不再机械地按训练行事，而是能够灵活变通，具体问题具体分析。

来自主题: AI技术研报

5773 点击 2024-11-07 17:33

Lodge++：基于两阶段策略的高质量超长舞蹈生成框架

Lodge++ 是一个创新的舞蹈编排框架，旨在根据给定的音乐和期望的舞蹈风格生成高质量、超长且生动的舞蹈序列。

来自主题: AI技术研报

8370 点击 2024-11-07 11:43

量化前沿｜利用大型语言模型构建动态金融知识图谱——FinDKG

在金融市场中，动态知识图谱（Dynamic Knowledge Graphs，DKGs）是一种表达对象之间随时间变化的多种关系的流行结构。它们可以有效地表示从复杂的非结构化数据源（如文本或图像）中提取的信息。在金融应用中，基于从金融新闻文章中获取的信息，DKGs 可用于检测战略性主题投资的趋势。

来自主题: AI技术研报

9656 点击 2024-11-07 10:32

LLM的Prompt竟然是图灵完备的？LLM提示范式的第一个研究 | 重磅

近日，伊利诺伊大学香槟分校的研究团队发布了一篇开创性论文，首次从理论层面证明了大语言模型(LLM)中的prompt机制具有图灵完备性。这意味着，通过合适的prompt设计，一个固定大小的Transformer模型理论上可以计算任何可计算函数。这一突破性发现为prompt工程提供了坚实的理论基础。

来自主题: AI技术研报

5870 点击 2024-11-07 09:39

不靠更复杂的策略，仅凭和大模型训练对齐，零样本零经验单LLM调用，成为网络任务智能体新SOTA

网络智能体旨在让一切基于网络功能的任务自动发生。比如你告诉智能体你的预算，它可以帮你预订酒店。既拥有海量常识，又能做长期规划的大语言模型（LLM），自然成为了智能体常用的基础模块。

来自主题: AI技术研报

5157 点击 2024-11-06 15:34

调研180多篇论文，这篇综述终于把大模型做算法设计理清了

算法设计（AD）对于各个领域的问题求解至关重要。大语言模型（LLMs）的出现显著增强了算法设计的自动化和创新，提供了新的视角和有效的解决方案。

来自主题: AI技术研报

4728 点击 2024-11-06 15:29

下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法；GenAI-Bench是一个包含复杂文本提示的基准测试集，用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能，还能通过选择最佳候选图像来实际改善生成的图像。

来自主题: AI技术研报

6080 点击 2024-11-06 15:07

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安全

在大算力和大数据让基于统计的 AI 模型真正变得强大且有用之前，基于规则的系统长期以来是语言模型的主导范式。

来自主题: AI技术研报

5856 点击 2024-11-06 14:57

AI将爆发哪些超级应用？

2023年ChatGPT横空出世，人工智能上半场开启近两年，海量企业加入AI赛道，却鲜有成功的、实现盈利的商业模式。

来自主题: AI技术研报

5466 点击 2024-11-06 09:58

使用 Swarm 构建多智能体新闻助理

本文将带你构建一个多智能体新闻助理，利用 OpenAI 的 Swarm 框架和 Llama 3.2 来自动化新闻处理工作流。在本地运行环境下，我们将实现一个多智能体系统，让不同的智能体各司其职，分步完成新闻搜索、信息综合与摘要生成等任务，而无需付费使用外部服务。

来自主题: AI技术研报

6432 点击 2024-11-06 09:44

多专家Prompt: 让LLM拥有群体决策的智慧 |最新

在当前的LLM应用开发中，工程师们通常通过使用单一角色或专家视角的方式来处理复杂问题。这种单一视角虽然能够提供一定的专业性，但也经常因为专家视角的局限性带来偏见，影响输出的全面性和可靠性。

来自主题: AI技术研报

9040 点击 2024-11-06 09:40

Agent也有快慢脑了！这次真的不一样

基于这一理念，DeepMind团队开发了一个双系统框架，称为Talker-Reasoner，旨在模仿人类的这两种思维模式。

来自主题: AI技术研报

6019 点击 2024-11-06 09:39

【新进展】知识图谱+大模型-->医疗诊断

近年来，生成式大型语言模型（LLMs）在各类语言任务中的表现令人瞩目，但在医疗领域的应用面临诸多挑战，尤其是在减少诊断错误和避免对患者造成伤害方面。

来自主题: AI技术研报

6694 点击 2024-11-06 09:34

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

西风

来自主题: AI技术研报

5991 点击 2024-11-05 20:40

比ChatGPT更牛！苹果新AI模型刷新交互体验！能看懂你的手机屏幕！平板和安卓机也都行

家人们，苹果一直在悄悄进步！近期，据小鹿观察，各大科技巨头不仅在提升模型解决复杂问题的能力上竞争激烈，而且还在大语言模型应用于用户界面（UI）交互方面上暗暗发力！

来自主题: AI技术研报

5936 点击 2024-11-05 19:33

Bifröst：基于语言指令的3D感知图像合成技术

Bifröst 是一个创新的3D感知图像合成框架，它利用扩散模型来执行基于语言指令的图像合成任务。

来自主题: AI技术研报

5501 点击 2024-11-05 19:29

RAG 系统的分块难题：小型语言模型如何找到最佳断点？

之前我们聊过 RAG 里文档分块 (Chunking) 的挑战，也介绍了迟分 (Late Chunking) 的概念，它可以在向量化的时候减少上下文信息的丢失。今天，我们来聊聊另一个难题：如何找到最佳的分块断点。

来自主题: AI技术研报

7138 点击 2024-11-05 16:36

无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24

视觉语言模型（如 GPT-4o、DALL-E 3）通常拥有数十亿参数，且模型权重不公开，使得传统的白盒优化方法（如反向传播）难以实施。

来自主题: AI技术研报

4554 点击 2024-11-05 15:28

1000个智能体打造《我的世界》，北大校友35页技术报告揭秘

北大校友打造的1000个智能体「我的世界」，背后原理揭晓了！团队全新公开35页技术报告，详尽解密AI智能体如何产生专业化分工、社交互动、甚至传播虚拟宗教……

来自主题: AI技术研报

4661 点击 2024-11-05 15:17

Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

复刻OpenAI o1推理大模型，开源界传来最新进展： LLaMA版o1项目刚刚发布，来自上海AI Lab团队。

来自主题: AI技术研报

5701 点击 2024-11-05 15:12

NeurIPS 2024｜新一代芯片电路逻辑综合，可扩展可解释的神经电路生成框架

近日，中科大王杰教授团队（MIRA Lab）和华为诺亚方舟实验室（Huawei Noah's Ark Lab）联合提出了可生成具有成千上万节点规模的神经电路生成与优化框架，具备高扩展性和高可解释性，这为新一代芯片电路逻辑综合工具奠定了重要基础。论文发表在 CCF-A 类人工智能顶级会议 Neural Information Processing Systems（NeurIPS 2024）。

来自主题: AI技术研报

5369 点击 2024-11-05 15:01

视觉定位新SOTA！华人团队开源革新框架SegVG，边界框转为分割信号 | ECCV 2024

SegVG是一种新的视觉定位方法，通过将边界框注释转化为像素级分割信号来增强模型的监督信号，同时利用三重对齐模块解决特征域差异问题，提升了定位准确性。实验结果显示，SegVG在多个标准数据集上超越了现有的最佳模型，证明了其在视觉定位任务中的有效性和实用性。

来自主题: AI技术研报

4365 点击 2024-11-05 14:56

无需训练即可大幅提升SAM 2！开源的SAM2Long来了，港中文、上海AI Lab出品

Segment Anything Model 2（SAM 2）在传统视频目标分割任务大放异彩，引起了众多关注。然而，港中文和上海 AI Lab 的研究团队发现 SAM 2 的贪婪选择策略容易陷入「错误累积」的问题，即一次错误的分割掩码选择将影响后续帧的分割结果，导致整个视频分割性能的下降。这个问题在长视频分割任务中显得更加严重。

来自主题: AI技术研报

8824 点击 2024-11-05 14:53