AI资讯新闻榜单内容搜索-OpenAI-o1

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: OpenAI-o1

GRPO遭遇瓶颈？G²RPO-A让自适应指导为小模型推理能力「开外挂」

GRPO遭遇瓶颈？G²RPO-A让自适应指导为小模型推理能力「开外挂」

GRPO遭遇瓶颈？G²RPO-A让自适应指导为小模型推理能力「开外挂」

大模型时代的「炼金术师」们，或许都曾面临一个共同的困扰：当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型（SLMs）时，效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著，但一旦应用到 1.7B 甚至更小参数的模型上，性能提升就微乎其微。

来自主题: AI技术研报

8575 点击 2026-05-07 10:16

思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型

近期，随着OpenAI-o1/o3和Deepseek-R1的成功，基于强化学习的微调方法（R1-Style）在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现，但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报

9172 点击 2025-08-01 16:08

「边思考、边搜索、边写作」WebThinker开启AI搜索&研究新纪元！

「边思考、边搜索、边写作」WebThinker开启AI搜索&研究新纪元！

「边思考、边搜索、边写作」WebThinker开启AI搜索&研究新纪元！

大型推理模型（如 OpenAI-o1、DeepSeek-R1）展现了强大的推理能力，但其静态知识限制了在复杂知识密集型任务及全面报告生成中的表现。为应对此挑战，深度研究智能体 WebThinker 赋予 LRM 在推理中自主搜索网络、导航网页及撰写报告的能力。

来自主题: AI技术研报

8667 点击 2025-05-16 11:04

迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

近年来，大模型（Large Language Models, LLMs）在数学、编程等复杂任务上取得突破，OpenAI-o1、DeepSeek-R1 等推理大模型（Reasoning Large Language Models，RLLMs）表现尤为亮眼。但它们为何如此强大呢？

来自主题: AI技术研报

10246 点击 2025-04-16 15:00

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

大语言模型（LLMs）通过更多的推理展现出了更强的能力和可靠性，从思维链提示发展到了 OpenAI-o1 这样具有较强推理能力的模型。

来自主题: AI技术研报

7127 点击 2024-12-13 14:40

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好优化，不限于推理任务

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好优化，不限于推理任务

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好优化，不限于推理任务

OpenAI-o1替代品来了，大模型能根据任务复杂度进行不同时间的思考。不限于推理性的逻辑或数学任务，一般问答也能思考的那种。最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究，被网友们齐刷刷码住了。

来自主题: AI技术研报

5006 点击 2024-10-28 17:02

上一页当前第1页,共1页下一页