AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
突破一亿Token极限:EverMind提出MSA架构,实现大模型高效端到端长时记忆

突破一亿Token极限:EverMind提出MSA架构,实现大模型高效端到端长时记忆

突破一亿Token极限:EverMind提出MSA架构,实现大模型高效端到端长时记忆

人的智能能力主要由推理能力和长期记忆能力构成。近年来,大模型的推理能力一直处于快速发展过程,但大模型的长期记忆能力一直受限于上下文长度,无法取得突破。在历史上,曾经有多种路线进行尝试,但都无法突破扩展性(Scalability)、精度(Precision)和效率(Efficiency)的不可能三角。

来自主题: AI技术研报
9422 点击    2026-03-19 17:02
超越MLA!新架构MLRA百万token,解码最高2.8倍速 | ICLR'26

超越MLA!新架构MLRA百万token,解码最高2.8倍速 | ICLR'26

超越MLA!新架构MLRA百万token,解码最高2.8倍速 | ICLR'26

MLRA通过拆分KV缓存为四个并行分支,显著降低显存占用并实现4路张量并行。推理速度比MLA最高快2.8倍,支持百万级上下文,且模型质量更优。无需牺牲性能,即可高效扩展长文本处理能力。

来自主题: AI技术研报
10106 点击    2026-03-19 15:25
CVPR 2026 | 给扩散模型装上「物理引擎」: 北大彭宇新团队提出NS-Diff,使扩散模型学会流体与刚体力学

CVPR 2026 | 给扩散模型装上「物理引擎」: 北大彭宇新团队提出NS-Diff,使扩散模型学会流体与刚体力学

CVPR 2026 | 给扩散模型装上「物理引擎」: 北大彭宇新团队提出NS-Diff,使扩散模型学会流体与刚体力学

本文是北京大学彭宇新教授团队在文本生成视频领域的最新研究成果,相关论文已被 CVPR 2026 接收。

来自主题: AI技术研报
7753 点击    2026-03-19 15:22
当AI第一次读完整本基因之书,十亿参数单细胞大模型能干什么?

当AI第一次读完整本基因之书,十亿参数单细胞大模型能干什么?

当AI第一次读完整本基因之书,十亿参数单细胞大模型能干什么?

十亿参数单细胞基础模型scLong不再只看少数高表达基因,而是把一个细胞里接近 2.8 万个基因 都纳入建模,并结合 Gene Ontology(GO) 的生物学知识,去理解更完整的基因上下文。

来自主题: AI技术研报
6315 点击    2026-03-19 10:23
更全面的具身智能真机评测来了!CVPR 2026 ManipArena挑战赛邀你打榜

更全面的具身智能真机评测来了!CVPR 2026 ManipArena挑战赛邀你打榜

更全面的具身智能真机评测来了!CVPR 2026 ManipArena挑战赛邀你打榜

过去一年,具身智能领域迎来了爆发式增长。从后空翻到托马斯回旋,从整理衣物到冲泡咖啡……各类令人惊艳的机器人演示视频层出不穷。

来自主题: AI技术研报
10196 点击    2026-03-19 09:46
TPAMI 2026 | 仅用两个变量破解混杂因素:CIC实现动力学因果推断与混杂变量重构

TPAMI 2026 | 仅用两个变量破解混杂因素:CIC实现动力学因果推断与混杂变量重构

TPAMI 2026 | 仅用两个变量破解混杂因素:CIC实现动力学因果推断与混杂变量重构

从观测时间序列数据中准确识别因果关系,是生命科学、地球科学、经济学以及人工智能等诸多领域的核心科学问题。尤其在复杂生物系统中,基因、蛋白质和代谢物之间高度耦合,并常常受到大量不可观测因素的干扰——这些「隐形混杂」无法被直接测量,却会严重误导因果推断结果,产生虚假的因果关联。

来自主题: AI技术研报
9685 点击    2026-03-19 09:44
5B参数+4060Ti,10秒出图,全流程开源可复现!补齐统一多模态生成编辑的开源版图,让高质量图像生成真正变得更轻量、更普及

5B参数+4060Ti,10秒出图,全流程开源可复现!补齐统一多模态生成编辑的开源版图,让高质量图像生成真正变得更轻量、更普及

5B参数+4060Ti,10秒出图,全流程开源可复现!补齐统一多模态生成编辑的开源版图,让高质量图像生成真正变得更轻量、更普及

统一多模态生成编辑模型,正在走向“重器化”

来自主题: AI技术研报
9942 点击    2026-03-18 16:15