AI资讯新闻榜单内容搜索-模型测评

国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

在2023年的「百模大战」中，众多实践者推出了各类模型，这些模型有的是原创的，有的是针对开源模型进行微调的；有些是通用的，有些则是行业特定的。如何能合理地评价这些模型的能力，成为关键问题

来自主题: AI资讯

7834 点击 2024-04-19 21:21

参照SuperCLUE（中文通用大模型综合性测评基准）框架专门定制了1000道题目集，一一测试了ChatGPT4、智谱chatGLM-4、Baichuan2-Turbo、百度ERNIE-Bot 4.0、Yi-34B-chat、llama 2等模型在保险业务上的表现。

来自主题: AI资讯

10751 点击 2024-03-07 10:34

新华社研究院发布了《人工智能大模型体验报告2.0》，对国内主流大模型进行使用体验的横向测评。该榜单用500道题目评测了国内8款主流AI大模型，最终讯飞星火排名第一，百度文心一言排名第二，阿里通义千问排在倒数第二。

来自主题: AI资讯

11790 点击 2023-09-24 12:43