斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了斯坦福最新大模型医疗任务全面评测,DeepSeek R1以66%胜率拿下第一!
搜索
斯坦福最新大模型医疗任务全面评测,DeepSeek R1以66%胜率拿下第一!
大二学生许柠第一次在AI身上感受到了“纵欲过度”。
一项新的强化学习方法,直接让Qwen性能大增,GPT-4o被赶超!
不用换模型、不用堆参数,靠 SUGAR 模型性能大增!
昨天YC一个访谈《State-Of-The-Art Prompting For AI Agents》,专门讲他们投资的一家客服公司,公开了他们提示词的写法,这应该也属于第一家吧。
想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。
最近AI圈子里有两个特别有意思的项目,一个是谷歌DeepMind的AlphaEvolve,另一个是UBC大学的Darwin Gödel Machine(简称DGM)。
AI工具帮助学生轻松完成作业,但过度依赖导致学习深度不足。研究显示,使用AI辅助的学生练习阶段表现优异,但独立考试时成绩显著下降。认知能力可能因“认知卸载”而退化,年轻群体更易受影响。教育界尝试禁用、引导或改革评估方式,但AI对学习本质的挑战仍未解决。
在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型的推理能力。
Claude发布MCP网页版本集成和Research,正式开启开挂模式。全面基于远程 MCP 的集成现已面向所有付费 Claude.ai 方案开放(包括 Pro 版用户),提供将 Claude 连接到各种工具和数据源的能力。
你好研究僧,听说刚刚中了顶会,却还在愁怎么做Poster(学术海报)?
据媒体援引消息人士报道,世界首富埃隆·马斯克旗下的人工智能(AI)公司xAI正在进行一项价值3亿美元的股份出售交易,此次交易将该公司整体估值定为1130亿美元。
全球AI原生企业围绕OpenAI、Anthropic和谷歌三大生态阵营发展,形成开放多元、安全导向和技术闭环的差异化格局。企业通过多模型接入、自研模型及垂直深耕等策略竞争,生态构建聚焦开发者工具、行业渗透和价格策略,当前行业仍处动态演变阶段,尚未形成最终格局。
《智能涌现》从多名独立信源处得知,大模型“六小虎”之一的阶跃星辰,C端AI应用布局,近半年来出现了以下调整:2024年12月,角色扮演类Agent产品“冒泡鸭”停止大范围投入,团队合并至对话产品“跃问”(现更名为“阶跃AI”),目前仅留部分员工运维。
时隔一个多月,进化版Fellou 2.0出世,正式开启了AI批量化生产的时代。它可以像「贾维斯」一样,7x24小时一键完成从调研到Logo设计等复杂任务,成为每个人真正的智能伙伴。
李飞飞空间智能创业公司World Labs,开源一项核心技术!
一站式AI漫剧生成 被各方押宝 1人,1天,1-2分钟产出 进一步降本增效 ‘数字横店’兴起
最近,大家开始用3d打印整活了:
智源研究院发布开源模型Video-XL-2,显著提升长视频理解能力。该模型在效果、处理长度与速度上全面优化,支持单卡处理万帧视频,编码2048帧仅需12秒。
如果你曾因工作电脑被锁而无法登录,就会明白急需联系 IT 支持的迫切感。不幸的是,技术支持人员往往忙于处理其他请求,这意味着你可能要等待很长时间才能重新获得访问权限。
hi 家人们,端午假期开心嘛! 除了休息工作,这次假期,我还和一位好久不见的老朋友约了一个聊天局。
无论是芙宁娜,艾米莉娅,还是雷电将军,任何你喜欢的角色,比如哪吒,都可以直接把它塞进这个智能硬件里。
发展教育大模型需要新的数据和评估体系!北京理工大学高扬老师团队推出EduBench,是首个专为教育场景打造的综合评估基准,涵盖9大教育场景、12个多视角评估维度、超4000个教育情境。通过多维度评估指标体系和人工标注一致性计算,确保评估可靠性,助力教育大模型发展,推动教育智能化。
IBM 于 6 月 2 日宣布已收购 Seek AI,这是一个允许用户使用自然语言查询企业数据的 AI 平台,具体收购金额未披露。
在机器人抓香蕉这个事情上,它们依赖的是手眼协调,靠视觉学习如何抓取香蕉。它们最有独创性的地方在于它不是因为我们教了它上千次如何抓香蕉,而是它从 Gemini 那里获得了关于“如何抓取物体”的知识,然后将这些知识应用到现实世界的动作中。
Trae国际版昨天上新了付费模式,本来没想着写付费教程,毕竟付费嘛,给钱就完了,但是我发现还真不是那么简单,我自己付费过程中也遇到了一些问题,同时呢,在官方群看到有好多小伙伴本来是想月付的,结果直接变成年付了,也就是直接付了90美刀,还没有退款渠道,只能给Trae官方发邮件,所以我还是写一个吧,给想付费的小伙伴提个醒也是好的。
YouWare是一个面向AI时代创作者的氛围编程平台,让非程序员也能通过AI将灵感转化为可视化网页并在线分享、协作。其自研AI Agent和Sandbox技术让创意「所想即所得」,推动AI编程从工具走向创作。
首个专为ALLMs(音频大语言模型)设计的多维度可信度评估基准来了。
OpenAI模型命名混乱没规律,以至于打开ChatGPT后,好多人都不知道到底该用哪个模型来完成任务。
人类的思维是非透明的,没有继承的记忆,因此需要通过语言交流的环境来学习。人类的知识传递长期依赖符号语言:从文字、数学公式到编程代码,我们通过符号系统将知识编码、解码。但这种方式存在天然瓶颈,比如信息冗余、效率低下等。