准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源
准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源马里兰大学联合北卡教堂山发布首个专为多模态大语言模型(MLLM)设计的图像序列的基准测试Mementos,涵盖了真实世界图像序列、机器人图像序列,以及动漫图像序列,用4761个多样化图像序列的集合,全面测试MLLM对碎散图像序列的推理能力!
搜索
马里兰大学联合北卡教堂山发布首个专为多模态大语言模型(MLLM)设计的图像序列的基准测试Mementos,涵盖了真实世界图像序列、机器人图像序列,以及动漫图像序列,用4761个多样化图像序列的集合,全面测试MLLM对碎散图像序列的推理能力!
不用图像,只用文本就能训练出视觉概念表征?用写代码的方式读懂画面,形状、物体、场景都能懂!
随着数智经济的发展,一场属于法律科技的深刻变革正悄然发生。如何把握机遇、应对挑战,已成为当前法律科技领域从业者深入思考、积极探索及实践的时代之问。
这两年,程前式的成功学采访很流行,要是给TK做一期,标题写《00后身价过亿》都保守了。
LUI 还是 GUI,AI 时代的产品交互应该遵循怎样的产品交互原则,在 2023 年被讨论过很多次,似乎大家得到的共识是,需要 LUI,但 GUI 也是不可少的。
2024 年 1 月 29 日,波形智能(AIWaves)于杭州举办首个技术开放日(AIWaves DevDay),正式发布新一代自主研发的中文内容创作垂域 SOTA 大模型「Weaver」,及由其驱动的面向用户写作类 Agent 产品「蛙蛙写作 1.0」。
AI 对于阅读和创作肯定会有影响,甚至很多人的观点是稍微悲观的,认为以后的创作都是 AI 了,连阅读都快要被 AI 代劳了。
非十科技推出了一款基于自研代码大模型打造的 AI 代码助手 ——Fitten Code,它可以帮助程序员更迅捷、更准确、更高质量地完成编码任务,大幅提升编码效率,并且向用户免费开放使用!
南京大学周志华教授提出的「学件」范式通过模型 + 规约的思路构建学件市场(现称学件基座系统),让用户根据需求从中统一地选择和部署模型。如今学件范式迎来了首个开源的基础平台 —— 北冥坞(Beimingwu)。
删除权重矩阵的一些行和列,让 LLAMA-2 70B 的参数量减少 25%,模型还能保持 99% 的零样本任务性能,同时计算效率大大提升。这就是微软 SliceGPT 的威力。
Meta 正式发布 Code Llama 70B,这是 Code Llama 系列有史以来最大、性能最好的型号。
动态视觉分词统一图文表示,快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。
OpenAI 在一篇博文中发布了多项更新,并表示更新后的 GPT-4 Turbo“拥有比之前预览模型更好的代码生成等能力,且减少了模型在任务中途罢工的「变懒」情况。”但该公司并没有对更新内容做进一步解释。
百川智能又对产品进行了一次大更新,发布了Baichuan 3模型。这次更新后,在多个权威通用能力评测CMMLU、GAOKAO和AGI-Eval中,其英文能力已经逼近 GPT-4,在中文任务表现上甚至超越了GPT-4:
Quora联合创始人兼首席执行官Adam D'Angelo发文宣布,已从硅谷风投巨擘Andreessen Horowitz 处筹集7500万美元。这笔资金将用于加速公司AI 聊天平台Poe的发展,其中大部分会投入支持AI开发者的创作货币化。
人工智能可以帮助求职者找到工作,以及帮助雇主更快、更有效地填补空缺职位。
在1月24日举办的腾讯科技向善创新节2024“大模型安全与伦理专题论坛”上,腾讯发布了大模型安全白皮书《大模型安全与伦理研究报告2024:以负责任AI引领大模型创新》,并邀请业界专家进行圆桌研讨。
不久前在CES 2024上亮相的智能终端Rabbit R1,由于首批1万台很快售罄、两周超过5万台的市场表现,曾引发了外界的众多关注。但就在日前,有提前试用了Rabbit R1的用户吐槽了这款产品实际表现,认为其响应时间过慢,或并不适合AI设备的未来趋势,甚至有观点认为其完全可以被一个App所替代。
AI绘画技术在美术行业的发展不会因为真人画师的反对而停止。
使用LLM生成海量任务的文本数据,无需人工标注即可大幅提升文本嵌入的适用度,只需1000训练步即可轻松扩展到100种语言。
大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出「元提示」新方法,能够让大模型成为全能「指挥家」,汇聚不同专家模型精华,让GPT-4的输出更精准。
Hugging Face上有一位机器学习大神,分享了如何从头开始建立一套完整的MoE系统。
一家名为GitClear的公司分析了近四年超过1.5亿行代码后发现,随着GitHub Copilot工具的加入,代码流失率(即代码写入后不久又被返工修改、删除的情况)出现了显著上升: 2023年为7.1%,而2020年时仅为3.3%,翻了一番。
发布了超千亿参数的最新版本大模型Baichuan 3,是百川智能基础模型第三代——就在20天前,这家由王小川创办的大模型公司,刚刚发布过角色大模型Baichuan-NPC。
无论是 Google 翻译、DeepL 翻译还是 ChatGPT,翻译大段英文的时候,“机翻感”(机器翻译的感觉)都很强,一看就是机器翻译的,很生硬,但是自己手动润色又太费时间。
在认知科学领域,人类通过持续学习改变认知的过程被称为认知迭代(Cognitive Dynamics)。形象地说,认知迭代就像是我们大脑的「软件更新」过程,手机应用通过不断的更新来修复 bug 和增加新功能,我们的大脑也通过不断学习新知识、经验,来改善和优化思考方式。
来了,贾扬清承诺的 Lepton Search 开源代码来了。
随着大型语言模型(LLM)技术日渐成熟,提示工程(Prompt Engineering)变得越来越重要。一些研究机构发布了 LLM 提示工程指南,包括微软、OpenAI 等等。
ChatGPT 掀起的通用人工智能热潮仍在快速向前,产业竞争关键要素日渐明确,中美在通用人工智能领域的竞争也进入更高的战略层面。
生成式AI为创始人提供了一个完全重塑工作流程的机会,并将催生一批新的公司,它们不仅仅是AI增强现有业务的公司,而且是完全AI原生公司。这些公司将利用我们现有的技术从零开始,围绕人工智能独有的生成、编辑和合成功能打造新产品。