AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
多变量神经缩放定律迈向大一统:Mila联手DeepMind提出UNSL

多变量神经缩放定律迈向大一统:Mila联手DeepMind提出UNSL

多变量神经缩放定律迈向大一统:Mila联手DeepMind提出UNSL

过去的大模型 scaling law 通常回答的是:当模型参数量、数据量和训练计算量增加后,loss 会如何下降。

来自主题: AI技术研报
6812 点击    2026-05-29 09:19
刚刚,DeepSeek陈德里与两个AI,合写了一篇论文

刚刚,DeepSeek陈德里与两个AI,合写了一篇论文

刚刚,DeepSeek陈德里与两个AI,合写了一篇论文

「借助 CodeAgent,我终于可以重新捡起很多过去因为精力不足而搁置的事情了,写博客就是其中之一。这篇博客大概 1% 是我写的,99% 是 Agent 写的 😂」。

来自主题: AI技术研报
7053 点击    2026-05-29 09:19
首次!DeepSeek-V4-Pro全参数后训练,被第三方在国产卡上跑通

首次!DeepSeek-V4-Pro全参数后训练,被第三方在国产卡上跑通

首次!DeepSeek-V4-Pro全参数后训练,被第三方在国产卡上跑通

近期,深圳河套学院(SLAI)AI训练平台项目团队,联合哈尔滨工业大学(深圳)、深圳大数据研究院、华为GTS(全球技术服务)团队与深智城AI算力平台,仅用1个月,共同基于昇腾910C国产算力集群实现DeepSeek-V4-Pro全参数续训练/SFT稳定运行,完成长稳训练1500+步,训练MFU超30%,关键训练算子效率提升14%。

来自主题: AI技术研报
9491 点击    2026-05-28 14:56
全球首次单机降服万亿巨模DeepSeek-V4!RL后训练框架Orbit开源!

全球首次单机降服万亿巨模DeepSeek-V4!RL后训练框架Orbit开源!

全球首次单机降服万亿巨模DeepSeek-V4!RL后训练框架Orbit开源!

从数学、代码、复杂推理,到多轮工具调用,大模型的很多能力的提升都离不开 RL 后训练。但当模型规模进入 MoE 万亿参数级别之后,RL 不再只是一个算法问题,同时更加是一个系统问题。

来自主题: AI技术研报
7279 点击    2026-05-28 14:51
Speech LLM 的下一个突破口:你的语音大模型可以是个「带韵律的文本模型」

Speech LLM 的下一个突破口:你的语音大模型可以是个「带韵律的文本模型」

Speech LLM 的下一个突破口:你的语音大模型可以是个「带韵律的文本模型」

相信大家都有过这样的体验:同一个系列的模型,使用文本交互的时候,模型就像开启了 “最强大脑”,数学代码等各种复杂推理任务样样精通,可是一旦将其改造成语音对话模型之后,性能就猛烈下降,严重 “降智”,经常会犯很多基本的逻辑错误。

来自主题: AI技术研报
6143 点击    2026-05-28 14:51
高分辨率视频生成不再慢半拍:让大模型保留“原味”的同时提速十余倍

高分辨率视频生成不再慢半拍:让大模型保留“原味”的同时提速十余倍

高分辨率视频生成不再慢半拍:让大模型保留“原味”的同时提速十余倍

当下视频生成模型正在快速逼近真实世界的画面质感,但一个现实瓶颈也越来越突出—— 那就是分辨率越高,生成所需要的时间就越长。

来自主题: AI技术研报
8170 点击    2026-05-28 14:50
ICML2026 | AutoMoT : B2D & nuScense双SOTA ,重新思考VLM和端到端驾驶的结合

ICML2026 | AutoMoT : B2D & nuScense双SOTA ,重新思考VLM和端到端驾驶的结合

ICML2026 | AutoMoT : B2D & nuScense双SOTA ,重新思考VLM和端到端驾驶的结合

大模型进入自动驾驶后,最直接的价值在于场景理解。它可以识别前车是否准备并线、行人是否可能横穿、施工区域是否会影响车道,也可以分析复杂路口中的让行关系。

来自主题: AI技术研报
10329 点击    2026-05-28 14:50