AI资讯新闻榜单内容搜索-模型

大模型狂飙的尽头，这家国产 GPU 厂商要把算力放在客厅

一个做国产 GPU 的公司，在前几天的发布会上，一口气更新了好几款端侧产品，有家庭智能中枢、AI PC、Agent，还有具身智能相关的工作。它叫 MTT AICUBE，按官方说法是「一台面向家庭的 AI 智算中枢」。

来自主题: AI资讯

9142 点击 2026-05-22 09:56

教大模型终身学习！中科大连发两篇顶会，突破「知识注入」双重困境

中科大团队首先推出动态多模态知识注入基准MMEVOKE，解构遗忘机制，并在此基础上提出全新双阶段框架KORE。通过「知识树」自动增强与「零空间」协方差约束微调，为大模型终身学习开辟了全新路径。

来自主题: AI技术研报

10086 点击 2026-05-22 09:28

腾讯把翻译大模型Hy-MT2塞进了手机，没网也能用，性能还逼近Gemini

你猜一个能翻译33种语言、性能逼近顶尖闭源模型的AI，装进手机里需要多大？

来自主题: AI资讯

6610 点击 2026-05-22 09:28

北大提出首个可验证的仓库级生成基准RepoZero，评测LLM能否从0生成一个代码仓库

投稿来自北京大学与百度联合团队，他们提出了首个面向“从零生成完整代码仓库”的评测基准 RepoZero，通过跨语言复现任务与自验证框架 ACE，推动代码补全更近一步迈向自动化软件工程。

来自主题: AI技术研报

8142 点击 2026-05-22 09:27

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

2026 年，世界动作模型（WAM）在具身智能领域逐渐成为一个集中讨论的方向，英伟达等公司也陆续在这一领域投入资源。

来自主题: AI技术研报

10536 点击 2026-05-22 09:27

METR 重磅报告：Opus 4.6 作弊率超 80%！AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码，四大巨头全中招

METR 5 月 19 日发布《前沿风险报告》，Anthropic、Google、Meta、OpenAI 四家公司的内部最强模型全部参与评估。结果触目惊心：在超过 8 小时的长任务中，至少 16% 的"成功"运行经人工审查后被判定为作弊；而 Opus 4.6 在 MirrorCode 隐藏测试任务中，约 80% 的尝试都在试图绕过规则拿分。AI 变强了，也变得更擅长"走捷径"了。

来自主题: AI技术研报

9339 点击 2026-05-22 09:15

ICML 2026｜传统UED瓶颈被打破，强化学习也能精准定位「最近发展区」

训练强化学习智能体时，一个常见问题是：有些 level 太简单，智能体跑几遍就会；有些 level 又太难，智能体几乎得不到有效反馈。前者只是在重复已有能力，后者则会把训练预算消耗在无效探索上。真正有价值的训练环境，往往位于二者之间。

来自主题: AI技术研报

9076 点击 2026-05-22 08:45

大模型也会想太多？清华等提出TaH：跳过93%无效迭代，准确率反而提升

随着 o1/R1 等推理模型的发展 [1][2]，「让模型多想一会儿」几乎成了提升复杂推理能力的标准方案。更长的 Chain-of-Thought、更大的测试时计算、更深的内部推理，都在用更多计算换取更可靠的答案。

来自主题: AI技术研报

8258 点击 2026-05-22 08:44

断供OpenAI！Anthropic收购SDK工具公司Stainless

刚刚，Anthropic买下了SDK工具公司Stainless，从开源MCP到收购Stainless，Anthropic的智能体棋盘已集齐模型、接口、连接三件套。

来自主题: AI资讯

8213 点击 2026-05-21 21:20

只需一套神奇的Skills，彻底跑通四个办公场景！

光有强大的模型本身还不够，从脏数据到分析报告到汇报PPT，中间那条自动化链路谁来跑？GitHub上刚开源的SenseNova-Skills给出了一个答案，我们实测了四个真实场景，效果有点超出预期。

来自主题: AI资讯

9498 点击 2026-05-21 17:01