AI资讯新闻榜单内容搜索-模型

选LLM-Judge评估，用这个可证明的人类对齐评估框架， ICLR2025匿名论文

在当今AI技术迅猛发展的背景下，大语言模型（LLM）的评估问题已成为一个不可忽视的挑战。传统的做法是直接采用最强大的模型（如GPT-4）进行评估，这就像让最高法院的大法官直接处理所有交通违章案件一样，既不经济也不一定总能保证公正。

来自主题: AI技术研报

7214 点击 2025-01-20 10:50

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

DeepSeek版o1，有消息了。还未正式发布，已在代码基准测试LiveCodeBench霸榜前三，表现与OpenAI o1的中档推理设置相当。注意了，这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview（轻量预览版）。

来自主题: AI资讯

5212 点击 2025-01-19 15:11

o1不是聊天模型！前SpaceX工程师：这样用o1才能解决复杂问题

Ben Hylak从最初对o1不满到逐渐掌握使用技巧，成功将其转化为解决重要问题的得力工具。本文探讨了如何正确使用o1，解锁其强大的报告生成和推理分析能力。

来自主题: AI资讯

7329 点击 2025-01-19 14:58

返老还童，OpenAI做到了？首个逆龄AI将登场，人类寿命可延长10年

【新智元导读】逆龄AI真的被OpenAI实现了！新模型GPT-4b micro通过蛋白质重编程技术，有望将人类寿命延长十年。

来自主题: AI资讯

7948 点击 2025-01-19 14:51

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

近年来，视觉大模型（Large Vision Language Models, LVLMs）领域经历了迅猛的发展，这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而，随着 LVLMs 复杂性和能力的增长，「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报

7924 点击 2025-01-19 14:51

Mistral与法新社签署协议：为Le Chat提供最新答案

据外电报道，就在谷歌与美联社签署协议的第二天，Mistral 还宣布与法新社 (AFP) 达成内容协议，以提高Mistral 聊天机器人产品Le Chat的答案的准确性。对于这家总部位于巴黎的人工智能公司来说，这是第一笔此类交易。这表明 Mistral 不想被视为仅仅一家基础模型制造商。

来自主题: AI资讯

7780 点击 2025-01-19 10:54

Atom Capital：中美AI最前沿——创投新趋势、中美竞争与初创企业出海战略

2024又是AI精彩纷呈的一年。LLM不再是AI舞台上唯一的主角。随着预训练技术遭遇瓶颈，GPT-5迟迟未能问世，从业者开始从不同角度寻找突破。以o1为标志，大模型正式迈入“Post-Training”时代；开源发展迅猛，Llama 3.1首次击败闭源模型；中国本土大模型DeepSeek V3，在GPT-4o发布仅7个月后，用 1/10算力实现了几乎同等水平。

来自主题: AI资讯

10417 点击 2025-01-19 10:38