AI资讯新闻榜单内容搜索-语言模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 语言模型

递归语言模型登场！MIT华人新作爆火，扩展模型上下文便宜又简单

递归语言模型登场！MIT华人新作爆火，扩展模型上下文便宜又简单

递归语言模型登场！MIT华人新作爆火，扩展模型上下文便宜又简单

目前，所有主流 LLM 都有一个固定的上下文窗口（如 200k, 1M tokens）。一旦输入超过这个限制，模型就无法处理。即使在窗口内，当上下文变得非常长时，模型的性能也会急剧下降，这种现象被称为「上下文腐烂」（Context Rot）：模型会「忘记」开头的信息，或者整体推理能力下降。

来自主题: AI资讯

8159 点击 2025-10-17 16:12

从掩码生成到「再掩码」训练：RemeDi让扩散语言模型学会自我纠正与反思

从掩码生成到「再掩码」训练：RemeDi让扩散语言模型学会自我纠正与反思

从掩码生成到「再掩码」训练：RemeDi让扩散语言模型学会自我纠正与反思

近期，扩散语言模型备受瞩目，提供了一种不同于自回归模型的文本生成解决方案。为使模型能够在生成过程中持续修正与优化中间结果，西湖大学 MAPLE 实验室齐国君教授团队成功训练了具有「再掩码」能力的扩散语言模型（Remasking-enabled Diffusion Language Model, RemeDi 9B）。

来自主题: AI技术研报

6784 点击 2025-10-17 09:41

不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出

不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出

不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而，当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时，现有模型却常常「力不从心」。

来自主题: AI技术研报

10626 点击 2025-10-16 12:31

一个模型装下整个物种树！伯克利GPN-Star斩获基因预测双料冠军

一个模型装下整个物种树！伯克利GPN-Star斩获基因预测双料冠军

一个模型装下整个物种树！伯克利GPN-Star斩获基因预测双料冠军

加州大学伯克利分校等机构的研究人员，近日推出了一种全新的基因组语言模型GPN-Star，可以将全基因组比对和物种树信息装进大模型，在人类基因变异预测方面达到了当前最先进的水平。

来自主题: AI技术研报

10824 点击 2025-10-16 12:19

仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

智东西10月15日报道，今日，阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本，两个尺寸均提供Instruct与Thinking版本，在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。

来自主题: AI资讯

11627 点击 2025-10-15 17:05

Qwen3 变身扩散语言模型？不从零训练也能跑，30B参数创纪录

Qwen3 变身扩散语言模型？不从零训练也能跑，30B参数创纪录

Qwen3 变身扩散语言模型？不从零训练也能跑，30B参数创纪录

扩散语言模型（Diffusion Language Models，DLM）一直以来都令研究者颇感兴趣，因为与必须按从左到右顺序生成的自回归模型（Autoregressive, AR）不同，DLM 能实现并行生成，这在理论上可以实现更快的生成速度，也能让模型基于前后文更好地理解生成语境。

来自主题: AI技术研报

7591 点击 2025-10-15 14:00

「微调已死」再添筹码，谷歌扩展AI自我进化范式，成功经验与失败教训双向学习

「微调已死」再添筹码，谷歌扩展AI自我进化范式，成功经验与失败教训双向学习

「微调已死」再添筹码，谷歌扩展AI自我进化范式，成功经验与失败教训双向学习

这几天，关于「微调已死」的言论吸引了学术圈的广泛关注。一篇来自斯坦福大学、SambaNova、UC 伯克利的论文提出了一种名为 Agentic Context Engineering（智能体 / 主动式上下文工程）的技术，让语言模型无需微调也能实现自我提升！

来自主题: AI技术研报

9124 点击 2025-10-15 12:14

LLaVA-OneVision-1.5全流程开源，8B模型预训练只需4天、1.6万美元

LLaVA-OneVision-1.5全流程开源，8B模型预训练只需4天、1.6万美元

LLaVA-OneVision-1.5全流程开源，8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出，通过低成本对齐高效连接开源视觉编码器与大语言模型，使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及，明显缩小了与顶级闭源模型的差距，标志着开源多模态范式的重要里程碑。

来自主题: AI技术研报

10174 点击 2025-10-15 12:12

推理速度10倍提升，蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

推理速度10倍提升，蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

推理速度10倍提升，蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

近日，蚂蚁集团正式开源业界首个高性能扩散语言模型（Diffusion Large Language Model，dLLM）推理框架 dInfer。

来自主题: AI技术研报

6719 点击 2025-10-15 11:46

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型学会“精确探索”，推理成绩飙升

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型学会“精确探索”，推理成绩飙升

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型学会“精确探索”，推理成绩飙升

大语言模型在RLVR训练中面临的“熵困境”，有解了！

来自主题: AI技术研报

8831 点击 2025-10-14 10:57

上一页当前第20页,共108页下一页