国运级的创新?从 DeepSeek-V3 到 R1 的架构创新与误传的万字长文分析
国运级的创新?从 DeepSeek-V3 到 R1 的架构创新与误传的万字长文分析DeepSeek 的最新模型 DeepSeek-V3 和 DeepSeek-R1 都属于 MoE(混合专家)架构,并在开源世界产生了较大的影响力。特别是 2025 年 1 月开源的 DeepSeek-R1,模型性能可挑战 OpenAI 闭源的 o1 模型。
搜索
DeepSeek 的最新模型 DeepSeek-V3 和 DeepSeek-R1 都属于 MoE(混合专家)架构,并在开源世界产生了较大的影响力。特别是 2025 年 1 月开源的 DeepSeek-R1,模型性能可挑战 OpenAI 闭源的 o1 模型。
DeepSeek火的一塌糊涂,其访问量暴涨614%,已成全球第二大爆火应用。马斯克剧透,xAI将发布比R1更好的模型。
黑科技来了!开源LLM微调神器Unsloth近期更新,将GRPO训练的内存使用减少了80%!只需7GB VRAM,本地就能体验AI「啊哈时刻」。
DeepSeek让国内一众大模型同行度过了一个“痛苦”的春节。年前,DeepSeek掀起AI海啸,有某大厂大模型业者就捶胸顿足:“产品超出了我的想象,比咱家的各方面都好,真想跳槽到DeepSeek。”还有很多人反思,为啥咱自家就没做出DeepSeek。也有业者不服气,认为“它的火只是一种情绪的泡沫。”
在柏林工业大学的一场圆桌对话当中,奥特曼再一次谈到了DeepSeek,并大赞开源模型对世界的贡献。对话中,奥特曼还发表了对AGI的最新看法,透露了十足的信心,他认为,虽然会遇到阻碍和挑战,但他相信人类终将实现AGI。
刚刚,腾讯云再放大招——不仅上线了 DeepSeek-R1 和 V3 原版模型的 API 接口,还将它们接入了大模型知识引擎,并支持联网搜索,成为国内率先实现这一能力的云厂商。
“我肯定会投啊!我肯定会投!——这个价格已经不太重要了,关键是参与在这里面。”1年前,2024年初,在我们关于《朱啸虎讲了一个中国现实主义AIGC故事》的报道中,朱啸虎的观点淋漓尽致地展现了一个现实版中国AI故事。他用“我们一看就知道,这个肯定没戏”,“我们一开始就说了,我就不看好大模型”,“ 我都不愿意去聊,你知道吗?这没有意义”,表态绝不会投资6家中国大模型创业公司中的任何一家。
就在刚刚,历史性的一刻出现了。DeepSeek项目在GitHub平台上的Star数,已经超越了OpenAI。热度最高的DeepSeek-V3,Star数如今已达7.7万。
在处理这类复杂任务的过程中,大模型智能体将问题分解为可执行的工作流(Workflow)是关键的一步。然而,这一核心能力目前缺乏完善的评测基准。为解决上述问题,浙大通义联合发布WorfBench——一个涵盖多场景和复杂图结构工作流的统一基准,以及WorfEval——一套系统性评估协议,通过子序列和子图匹配算法精准量化大模型生成工作流的能力。
如今,AI爆发趋势势不可挡,从去年开始,内容生成领域就备受瞩目,无论是文生还是图生,都让创作变得轻而易举,也让更多的非原专业人士能够参与其中,体验用极短的时间制作出心仪的内容。