AI资讯新闻榜单内容搜索-大模

具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式

机器人拉个拉链，到底需不需要“脑子”？

来自主题: AI技术研报

7533 点击 2026-05-11 16:10

ICML 2026｜拒绝大力出奇迹，PRISM框架让dLLM也能高效Test-Time Scaling

近年来，大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架，Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。

来自主题: AI技术研报

5697 点击 2026-05-11 16:09

CVPR 2026 | 别卷推理了！当前大模型 STEM 短板在于「视觉感知」，代码才是破局关键

当多模态大语言模型（MLLMs）在面对科学、技术、工程和数学（STEM）领域的视觉推理题时频频「翻车」，一个根本性的问题摆在了所有研究者面前：大模型做不出理科题，究竟是因为「脑子笨」（推理能力受限），还是因为「眼神差」（视觉感知缺陷）？

来自主题: AI技术研报

6580 点击 2026-05-11 16:08

大模型自信且短视！Next-ToBE破除Next Token预测诅咒 | ICLR'26

大模型常因只关注当前预测而显得短视。Next-ToBE通过调整训练目标，让模型在每一步预测时兼顾未来token分布，从而提升整体推理能力。

来自主题: AI技术研报

6425 点击 2026-05-11 09:03

中国移动与火山引擎共推机密模型服务模式，让企业更安全的使用大模型！

2026移动云大会，中国移动和火山引擎，一个运营商国家队，一个AI圈顶流，共同宣布了一个叫「机密大模型」的服务模式。

来自主题: AI资讯

9950 点击 2026-05-11 09:03

告别Prompt抽卡和评分通胀：一个让AI游戏真正「机制化迭代」的框架

让大模型写一个小游戏，已经不新鲜了。它可以很快生成一个 Flappy Bird、一个塔防游戏、一个物理解谜页面，甚至还能补上按钮、分数和简单动画。但真正的问题是：这些游戏到底有没有新的玩法？它们是在创造，亦或只是把已有游戏换了一层皮？

来自主题: AI技术研报

10179 点击 2026-05-11 09:02

怎么判断大模型是真懂还是假懂？浙大x爱丁堡大学新指标NCB：给它的知识邻域也打分

当大模型看起来很自信时，它真的“相信”自己说的话吗？

来自主题: AI技术研报

6878 点击 2026-05-11 09:01

只要24GB 内存，能在本地 Mac上跑无限制的Gemma 4 31B了

有个31B参数的大模型，正常需要80GB显存才能跑。但现在，24GB显存就能跑满血版。这个版本叫Gemma-4-31B-JANG_4M-CRACK——"CRACK"这个词不要理解歪了，它本质是量化压缩加上对齐微调之后的部署版本，不是什么黑客攻击，就是工程优化。24GB，MacBook Pro，直接跑。苹果用户优先优化，MLX原生支持，月下载13000次。

来自主题: AI资讯

9027 点击 2026-05-10 11:39

蚂蚁万亿参数思考模型Ring-2.6-1T来了！实测AIME真题难不倒，会写爽文、规划出行

今天，蚂蚁百灵大模型发布Ring-2.6-1T。这是一款面向真实复杂任务场景的万亿级思考模型，目前已上线OpenRouter，并开放限时一周免费体验，后续将正式开源。Ring-2.6-1T加入了可调节的Reasoning Effort机制。开发者可以在high和xhigh两种推理强度之间选择：high面向Agent、Coding、多步工具调用等高频任务

来自主题: AI资讯

8993 点击 2026-05-09 21:30

大模型不认识马嘉祺？我们做了一次全链路排查

MiniMax M2 系列受到了开发者社区的广泛关注，不少用户在深度使用中发现了一些个例问题，其中“模型无法说出马嘉祺”这个问题引发了较多讨论。我们也注意到，社区中有不少开发者对这个现象进行了高质量

来自主题: AI技术研报

8822 点击 2026-05-09 10:35