扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源
扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。
挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。
AI是否会在5年内破解黎曼猜想?是否会保持每年5x的算力扩张节奏?十年后,AI将把我们带向一个什么样的世界?近日,Epoch AI负责人Jaime Sevilla,与数据与分析负责人Yafah Edelman在对话中,为我们揭示了未来十年AI发展的路线图。
超长序列推理时的巨大开销如何降低?
强化学习之父、2024 年 ACM 图灵奖得主 Richard Sutton 曾指出,人工智能正在迈入「经验时代」—— 在这个时代,真正的智能不再仅仅依赖大量标注数据的监督学习,而是来源于在真实环境中主动探索、不断积累经验的能力。
这些地区正在悄悄崛起
“ 低门槛、便捷、精准——AI正在把第二意见带给每一位患者。”
数据智能体到底好不好用?测评一下就知道了!
苦等多年,Excel终于长大了!全新COPILOT函数神器,直接把AI塞进了表格,不论是整理数据、头脑风暴,还是分类反馈,通通一键搞定,打工人效率直接原地起飞。
2025 年上半年,日本 AI 应用市场呈现出一个鲜明特征,用户规模不大,但付费能力极强。日本总务省 7 月发布的《信息通信白皮书》显示,日本个人用户的生成式 AI 采用率仅为 26.7%,只有中国(81.2%)的三分之一,也远低于美国(68.8%)和德国(59.2%)。
故事是这样的,两周前,Anthropic 上周发布一个公告:他们的工程师在后台数据中发现了一个异常账户,正在以一种不可思议的速度,7x24 小时消耗着 Claude 模型的算力。公告中提到:”有一位用户,在每月200美元的套餐中,消耗了价值 5 万美元的模型使用量。“ 这个消耗量大到,Anthropic 不得不公开发布声明调整全球用户的速率限制。