token级,精准控制生成长度:3B模型击败GPT 5.4、Claude
token级,精准控制生成长度:3B模型击败GPT 5.4、ClaudeLenVM将长度建模提升到token级别,开辟可扩展价值预训练的新维度——3B开源模型精确长度控制全面击败GPT-5.4、Claude-Opus-4-6等顶级闭源模型;相同token预算下推理准确率提升10倍(63% vs 6%);沿模型规模、数据量、采样数三轴无饱和scaling的value pretraining
搜索
LenVM将长度建模提升到token级别,开辟可扩展价值预训练的新维度——3B开源模型精确长度控制全面击败GPT-5.4、Claude-Opus-4-6等顶级闭源模型;相同token预算下推理准确率提升10倍(63% vs 6%);沿模型规模、数据量、采样数三轴无饱和scaling的value pretraining
Anthropic 在短短几年内就成为了OpenAI 的最强劲敌!
之前 Claude Code 源码泄露的时候,大家惊奇的发现,里面有一个正在开发的功能:做梦
SWE-Bench 的创建者,刚刚又放出了一个地狱级新 benchmark。
别人做AI中训练都在堆语料、补知识。
Claude开发者大会来了!这一次,Anthropic让Agent学会了「做梦」,两次干活的间隙自动反刍记忆、自我进化。配合多Agent兵团作战和自动评分官,AI任务完成率直接暴涨6倍。
SWE-Bench上能拿72%的模型,换张考卷直接归零!Meta联合斯坦福、哈佛放出ProgramBench,200个项目从零手写,9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网,就有模型在36%的任务里跑去GitHub扒源码。
今天,马斯克官宣解散xAI并入SpaceX。同时,他把全球最强超算Colossus 1,全部租给OpenAI死对头Claude。一边在法庭要罢免奥特曼,一边给对手送算力,老马这波釜底抽薪绝了。
太魔幻了,特朗普开始做API中转站了,还有七折的 Claude 可以用。甚至还有机会参加懂王的私人派对。前两天还在跟朋友感慨,连孙雨晨都低调下场搞中转站了,AI API 这门生意是真的下沉到水深火热了。
陶哲轩+AI再上大分!