新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了
新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了一个约 1B 参数的模型,在 MATH 上拿到 56.2,在 GSM8K 上拿到 84.5,在 ARC-Challenge 上拿到 81.9。训练成本约 1500 美元,16 块 H100 跑了不到两天。
搜索
一个约 1B 参数的模型,在 MATH 上拿到 56.2,在 GSM8K 上拿到 84.5,在 ARC-Challenge 上拿到 81.9。训练成本约 1500 美元,16 块 H100 跑了不到两天。
Anthropic自家工程师早已基本不写代码了,却280美元一个任务,花钱请约1000名外部工程师,手把手教Claude Code写出好代码。喂养前沿模型的,终究还是人。
不过,好用归好用,常规渠道订阅一个月大概需要 140 元,长期积累下来也是一笔不小的开销。最近我研究了不同的订阅途径,发现通过土耳其区进行订阅,费用大概能省下一半。
刚刚,OpenAI秘密递交IPO申请,即将冲刺万亿市值!奥特曼扔出使命宣言,2028年让AI进行自我研究,给地球上每个人发一个属于自己的AGI。
自今年2月以来,AxiomProver已让8篇覆盖最硬核领域的AI论文现身arXiv,6篇正在筹备。上午出题下午交卷的节奏,让博士生秃头、教授评职称的日子一去不复返。接下来AI能做到什么?
6月8日,高德重磅发布了全球首个3D原生城市世界模型——ABot-Earth0.5。ABot-Earth0.5的发布不仅宣告着城市级场景3D原生技术的重要突破,更彻底重塑了传统3D建模的生产逻辑与成本结构。
过去一个多月,大模型圈依旧热闹。从 GPT-5.5、DeepSeek V4 到 Claude Opus 4.8,后训练正在成为模型能力提升的关键引擎。
不扩上下文窗口、不换骨干架构、不做全参数微调 —— 只需要一个 8×8 的在线状态矩阵,就能让冻结的 Transformer 拥有真正的长期记忆。
春节AI大战过去仅半年不到,千问、豆包这两大AI产品又在618期间隔空“赛跑”。 《读佳》获知,在618电商大促前夕,千问APP正悄悄内测“AI帮我挑”的全新功能,这是千问与淘宝全面互通后的又一关键布
6月4日,Arena.ai发布Agent Arena排行榜,用373,431次真实会话的数据,给18个主流模型的Agent能力排了个座次。先看总榜。Agent Arena的排名依据是“净改进”(Net Improvement),用因果推断方法算出每个模型相对于随机基线的性能提升幅度。正值代表比随机选择更好,负值说明不如随机。