AI资讯新闻榜单内容搜索-模型

阿里大模型被Github一度404，负责人紧急回应：没跑路，平台故障误伤

一觉醒来，阿里Qwen的GitHub网页404了？！

来自主题: AI资讯

11443 点击 2024-09-05 22:24

三星高管剧透GPT-5高达5万亿参数，OpenAI匿名模型上线

GPT-5有3-5万亿参数，由7000块B100炼成？！

来自主题: AI资讯

8032 点击 2024-09-05 22:21

AI落地新战场，云厂商开卷MaaS：大模型即服务，华为给所有人发船票了

大模型应用落地，正在快步进入全民“淘金”时代——

来自主题: AI资讯

12324 点击 2024-09-05 22:18

从目前国内LLM模型公司八卦谈起

我个人不是喜欢打听这些公司八卦的人，前些年移动互联网时代就已经有太多这样的小道消息，但最终都没有没什么用。重要的信息迟早会变成公开，最多晚几个月而已，又不是要考虑抢时间窗口投这些公司，花时间去探究ROI不高。

来自主题: AI资讯

7135 点击 2024-09-05 22:15

Tweedie 公式：一个公式统治所有扩散模型！

今天的内容有点烧脑但绝对干货满满！

来自主题: AI技术研报

11152 点击 2024-09-05 22:04

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

训练代码、中间 checkpoint、训练日志和训练数据都已经开源。

来自主题: AI技术研报

10726 点击 2024-09-05 22:02

去太空训练AI大模型，24小时太阳能供电的GPU明年上天

在未来，太空 AI 算力或许要比地球上功率最大的还要大。

来自主题: AI资讯

10570 点击 2024-09-05 21:57

MemLong: 长文本的新记忆大师，可将上下文长度从4k提升到80k！

这篇文章介绍了一个名为MemLong的模型，它通过使用外部检索器来增强长文本建模的能力。

来自主题: AI技术研报

8728 点击 2024-09-05 16:33

基于骨架的AI连笔书法生成的一些启发

这篇文章是笔者之前AI手写连笔书法生成的一个工作，是联合中央美院几位非常知名的老师完成的。当时提出的思路相对简单，主要结构是基于对抗生成网络（GAN）。虽然方法在大模型横行今天可能已经不算太新颖，但近期一些基于diffusion的AIGC工作还是关注到了这篇文章，并产生了一些启发。笔者认为这些灵感仍具有一定价值，因此在这里做个分享。由于一些公式和指标不太友好，为了不影响阅读故省略。

来自主题: AI资讯

12061 点击 2024-09-05 16:20

3天把Llama训成Mamba，性能不降，推理更快！

近日，Mamba方面又搞出了有意思的研究：来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。

来自主题: AI技术研报

9366 点击 2024-09-05 15:31