一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26
一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26港科大团队提出音频生成统一模型AudioX,只需一个模型,就能从文本、视频、图像等任意模态生成高质量音效和音乐,在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench,并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。
港科大团队提出音频生成统一模型AudioX,只需一个模型,就能从文本、视频、图像等任意模态生成高质量音效和音乐,在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench,并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。
人形机器人学会数十种极限动作。
多模态学习(Multimodal Learning)正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态,模型能够获得更全面的信息,从而显著提升性能。
多数大模型能生成 “看起来像” 研究的文本,但极少数能真正做研究 —— 提出假设、收集证据、执行可复现的推导、迭代验证直至结论成立。
我本来以为这玩意儿就是个技术圈的小众玩具。结果今天刷美团,发现它居然上架了。。。美团联合联想IT服务品牌百应,推出了OpenClaw远程部署服务。395元起,还可用团购券。
OpenClaw推出v2026.3.7-beta.1,史上最密集一次更新:89项提交、200+Bug修复,核心亮点是全新ContextEngine插件接口——上下文管理终于可以「自由插拔」,不动核心代码就能换策略。这次更新值得每一个做AI Agent的人认真看。
上门安装的天塌了...!
你现在养了几只龙虾?
大四学生,十天Vibe Coding,3个月拿下3000万投资,把毕设做成了公司!随着国产开源项目MiroFish登顶GitHub趋势榜榜首,一个人做出全球爆款的「超级个体」时代,真的来了。
ZP独家获悉,AI芯片及系统架构研发商“上海昉擎科技”于近日完成 Pre-A3 轮融资,新引入投资人国开科创、钧山资本、建发新兴投资、多维资本,多维资本担任本轮融资财务顾问并担任后续融资独家财务顾问。