让Agent把成功经验固化成skills,跨模型复用成功率100%
让Agent把成功经验固化成skills,跨模型复用成功率100%AI会用工具了,问题才真正开始…
AI会用工具了,问题才真正开始…
GitHub OCR项目之王刚刚历史性易主。
三月的Claude,不是在崩,就是在去崩的路上。状态页48条incident、major/critical事故窗口累计超44小时——这还是保守算法。更离谱的是,$200/月的Max顶配用户反映一小时不到就被限流,项目做到一半突然断供,零预警。推特上「60秒退订教程」疯传,开发者成群结队涌向Codex+GPT 5.4。但逃到对岸就安全了吗?OpenAI状态页显示:Codex三月也崩了7个小时。
Cheng Lou:React 核心团队成员,参与 ReactJS 的早期开发;主导了 ReasonML(后来演变为 ReScript)的开发;目前在 Midjourney 工作,参与 AI 图像生成平台的开发。
在具身智能领域,机器人操作的泛化能力一直是一个核心挑战。当前,视觉 - 语言 - 动作(VLA)模型主要分为两大范式:端到端模型与分层模型。端到端 VLA 模型(如 RT-2 [1], OpenVLA [2])严重依赖海量的 “指令 - 视觉 - 动作” 成对数据,获取成本极高,导致其在面对新任务或新场景时零样本泛化能力受限。
新一代代码模型的训练动态已与旧模型截然不同,主流强化学习方法和数据集在其上几乎“失效”。
AI健康硬件公司「OdyssLife」(以下简称“Odyss”)已于近期连续完成多轮融资,总金额近2亿元人民币。本次融资由红杉中国、Monolith分别领投,老股东线性资本、Creekstone继续加注。
过去几年,多模态模型在理解任务上快速演进,图像问答、OCR、视觉推理、跨模态对话等能力不断提升;与此同时,图像生成模型也在视觉质量、指令遵循和细节表达上持续突破。下一步一个自然的问题是:能否用同一个模型,同时做好理解与生成?这正是统一多模态模型(Unified Multimodal Models, UMMs)正在回答的问题。
近年来,随着 Sora、Seedance 等文本到视频(T2V)扩散模型的飞速发展,AI 视频生成在视觉保真度与动态表现上已取得突破性进展。特别是近期备受瞩目的 Seedance 2.0,展现出了极其强大的多镜头叙事与复杂分镜控制能力。
打开手机的订阅管理页面,我数了一下:过去十二个月里,我为各种 AI 应用付过费的数量是七个。目前还在续费的,两个。