DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini
DeepSeek又拿第一!首创「因果流」视觉推理,超越GeminiDeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。
DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。
这一框架可用于集成额外文本、语音和视觉等多种模态。
革命性AI开源智能体—Clawdbot火了, 看看投资人Rahul Sood怎么说, 他也是Microsoft Ventures创始人。I've been messing with Clawdbot this week and I get the hype.
马斯克「Macrohard」(巨硬)黑幕曝光!xAI工程师爆料:AI智能体将8倍速模拟人类,或取代亿万白领岗位。
去年秋天,苹果总部那座标志性的飞船大楼里,软件工程高级副总裁克雷格·费德里吉(Craig Federighi)站在台上,对着底下的软件与 AI 团队说了一番话。 前半段还算客气,他说很期待两个团队的深度合作。但紧接着,这位银发高管话锋一转:「我喜欢快速前进、感受顺风的感觉,但这几年在 AI 上,我没感受到这种速度。」
中国团队首次在全球顶尖期刊发表“大模型+医疗”领域的相关标准研究! 作为Nature体系中专注于数字医疗的旗舰期刊,《npj Digital Medicine》(JCR影响因子15.1,中科院医学大类1区Top期刊)此次收录的CSEDB研究,首次提出了一套用于评估医疗大模型真实临床能力的系统性框架。
近日,由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别(ASR)模型 MOSS-Transcribe-Diarize,不但可以语音转文字,还可以将音频片段与对话中不同的说话者关联起来,性能超过了 GPT-4o、Gemini、豆包等一众模型。
马斯克的 xAI 非常神秘。
视频世界模型领域又迎来了新的突破!
AI写代码,这次玩大了。 Cursor创始人宣布一项疯狂实验的结果:让数百个AI智能体连续跑了整整一周,从零开始,硬生生造出了一个可用的Web浏览器。项目代号FastRender,产出超过300万行代码,核心是一个用Rust从头写的渲染引擎,甚至还自带一个定制的JavaScript虚拟机。