Done!硅谷分拣快递的人类工作,没了
Done!硅谷分拣快递的人类工作,没了美国具身卷到飞起,明星企业Figure再整新活: 这一次,他们让机器人进厂打工,8小时不间断直播放送。
搜索
美国具身卷到飞起,明星企业Figure再整新活: 这一次,他们让机器人进厂打工,8小时不间断直播放送。
英国AI安全研究所(AISI)昨天扔下重磅炸弹:Mythos在模拟企业内网32步渗透任务中10次过6,GPT-5.5也跟着10次过3,连此前所有模型都没破过的Cooling Tower靶场都被首次攻破!更炸的是——Cyber能力翻倍周期一路压到4.5个月,瓶颈不是智力,是Token。这场ASI决赛,人类评测已经追不上AI了。
就在刚刚,Claude把ChatGPT拉下马,Anthropic企业市占率首次登顶!Ramp数据显示,前者的34.4%首次反超OpenAI的32.3%。但Ramp经济学家直言,A厂目前还面临着三重困境,胜负仍未定。
2026 年 5 月 6 日,Menlo Ventures 合伙人 Deedy Das (@deedydas) 发布了他自 2025 年 11 月以来不断收集的市场版图,帖子很短,但名单很长,核心数据如下:
I²B-LPO 是一个面向 RLVR 后训练的探索增强框架,通过改进 rollout 策略引导模型生成更多样化的推理轨迹,将探索行为从 “重复采样” 推进到 “在关键节点生成更具区分度的推理轨迹”,在多个数学基准上同时提升准确率与语义多样性,最高分别达 5.3% 和 7.4%。该工作接收于 ACL 2026 Main,来自阿里达摩院 - 智能决策团队。
今天早上,OpenAI突然宣布一个促销政策:未来 30 天内,企业用户如果迁移到 Codex,2 个月免费 Codex 用量。同期,桌面端还内置了迁移工具,可以把 Claude Code 的 system prompts、custom skills、chat history、MCP server 配置一键搬过来。
GPT-5.5才发三周,5.6内部测试代码就被抓包了!OpenAI即将祭出Codex 3倍速的「超极速模式」,这种疯狂的迭代速度,简直不给同行留活路。
凌晨 1 点,某三甲医院急诊科,一位 62 岁的男性被紧急送入,他正经历急性 STEMI 并发急性心衰。血压飙至 185/105 mmHg,血氧仅 91%。护士已推来除颤仪,催促医生「心电捕手」确认替格瑞洛剂量。
您有没有想过:在代码Agent里,执行终端命令、跑测试、读报错、总结日志这种任务,用Claude Opus、Claude Sonnet、GPT-5.3-Codex这类昂贵Token的大模型来执行,是不是有点浪费?一定要这么做吗?
当下的大模型后训练(Post-training)pipeline 中,On-Policy Distillation(OPD)已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5,业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习(RL)稀疏的结果奖励,OPD 提供了密集的 Token 级别监督信号,看起来就像是一顿「免费的午餐」。