Speech LLM 的下一个突破口:你的语音大模型可以是个「带韵律的文本模型」
Speech LLM 的下一个突破口:你的语音大模型可以是个「带韵律的文本模型」相信大家都有过这样的体验:同一个系列的模型,使用文本交互的时候,模型就像开启了 “最强大脑”,数学代码等各种复杂推理任务样样精通,可是一旦将其改造成语音对话模型之后,性能就猛烈下降,严重 “降智”,经常会犯很多基本的逻辑错误。
搜索
相信大家都有过这样的体验:同一个系列的模型,使用文本交互的时候,模型就像开启了 “最强大脑”,数学代码等各种复杂推理任务样样精通,可是一旦将其改造成语音对话模型之后,性能就猛烈下降,严重 “降智”,经常会犯很多基本的逻辑错误。
当下视频生成模型正在快速逼近真实世界的画面质感,但一个现实瓶颈也越来越突出—— 那就是分辨率越高,生成所需要的时间就越长。
根据《金融时报》、路透社等媒体的报道,英伟达首席执行官黄仁勋(Jensen Huang)已接受邀请,加入清华大学经济管理学院顾问委员会。
大模型进入自动驾驶后,最直接的价值在于场景理解。它可以识别前车是否准备并线、行人是否可能横穿、施工区域是否会影响车道,也可以分析复杂路口中的让行关系。
算力帝国 vs 企业刺客,OpenAI与Anthropic的ASI终极对决已经开打。
超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro,阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜拿下第二名,仅次于 Claude Opus 4.7。除了真实场景的用户选择,在传统的大模型固定评测榜单上,像是终端能力 Terminal Bench、编程能力 SWE Bench 等,Qwen3.7 Max 的表现也是拿下了国产模型的冠军。
那有没有一个专门给 Agent 刷的、类似 X 的平台?最近我还真发现了一个专门为 Agent 打造的社区(类似X):觅游。在这个社区里,Agent 统一被称为"虾"。
Gemini 3.5的闯祸实录。
前段时间开源了 guizang-ppt-skill,之后我自己用它做内容的时候发现一件事。
当一家年赚 500 亿美元的公司,决定把几乎同等规模的钱砸向 AI 基建,这件事本身就值得重新审视中国科技巨头的战略决心。
省心即价值。
一个号称「零污染」的新基准 DeepSWE,用113道原创题撕开了旧编程榜单的遮羞布。
8.99万元操作天花板,6月发货,具身智能的「苹果时刻」!中国版Figure,星尘智能自研「AI模型-具身OS-绳驱本体」三位一体架构,用击穿底线的定价,推动Physical AI落地。一句话:今年必Buy!
德适AI获三类医疗器械证,医疗AI产业化迎来新突破。
刚刚,英伟达再次甩出一份炸裂财报:单季营收816亿美元,光数据中心一项就占了92%。但真正应当注意的,是财报中一个一年翻了近29倍的数字。它背后,是英伟达正在悄悄完成的身份转换:从「卖铲子的人」,变成整条AI产业链的「收租人」。
迈入今年618大促周期,各大电商平台纷纷加码AI购物,智能选购成为各家角逐的新焦点。
在具身智能快速发展的今天,机器人已经不再满足于「看见」刚体物体,而是开始真正走向复杂环境中的交互与操作。从机械臂开柜门,到服务机器人整理抽屉,再到工业场景中的工具操作,大量真实世界目标都属于关节物体(Articulated Objects)。
图片来源:Baseten AI 初创公司 Baseten 近期正与投资者洽谈,计划以 110 亿美元估值(含融资额)募集 10 亿美元资金,据知情人士透露。这将使该公司估值较三个月前公布的上一轮 50
3D世界“会看”了,但还不会“改”。
你有没有想过,我们每天用的 AI 大模型,可能在某些词汇上天生就有缺陷?不是因为训练数据不够,不是因为算力不足,而是因为语言本身的规律——那些用得少的词,模型就是学不好。更让人意外的是,这个问题早在 2025 年就被一家中国创业公司系统性地发现并解决了。
就在几天前(5月22日),DeepSeek官方扔出了一枚重磅炸弹:DeepSeek-V4-Pro将在5月底结束优惠后,永久降价至原价的四分之一。各大媒体瞬间被诸如“白菜价”、“夯爆了”的标题刷屏。看看这组惊人的新定价:每百万Token输出6元,输入(缓存未命中)3元,而输入(缓存命中)仅仅只要0.025元!
距离谷歌的Gemini 3.5 Flash发布已经一周多了。
YC 官方账号亲自下场推了一家叫 Manicule 的公司——专门给开发者工具团队承包技术文档和 DevRel 内容,核心卖点:成本只要 DevRel 的一半,速度快一倍,而且文档专门为 AI agent 优化。当 Codex、Claude Code 这些编程 agent 开始直接读你的 docs 来调 API,文档质量差就等于把客户拱手让给竞品。
念念不忘,必有回响。
随着大语言模型在各类应用中加速落地,一个核心技术瓶颈日益凸显——AI始终缺乏真正的长期记忆能力。当前主流的RAG(检索增强生成)方案依赖语义相似度检索历史信息,但“语义相似”并不等于“真正相关”,常常出现检索结果不完整、无法区分信息相关性、缺乏推理能力等问题。
据彭博社援引知情人士透露,字节跳动计划采购数百万颗高通AI ASIC芯片,用于支持其AI Agent业务。受相关消息刺激,高通股价周三盘中一度上涨8.3%,创下阶段性新高。
GPT-5.5被扒出「假思考」,用两小时就被偷偷换成mini,200美元月费买了个「薛定谔的脑子」。Trace命令实锤,官方文档亲自认领。往后有纷纷吐槽:OpenAI,你糊弄谁呢?
昨晚,AI模型聚合平台OpenRouter宣布完成1.13亿美元(约合人民币7.67亿元)的B轮融资。本轮融资由谷歌母公司Alphabet旗下的成长基金CapitalG领投,英伟达NVentures、ServiceNow等一众风险投资机构跟投,a16z、Menlo Ventures持续加注。外媒报道,该公司融资过后估值飙升至13亿美元(约合人民币88.22亿元)。
越过从记忆到理解的鸿沟。
真正的医疗 AI 需要架构重塑。