AI资讯新闻榜单内容搜索-OCR

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: OCR

刚刚，百度开源模型Unlimited OCR拿下全球第一！作者疑似DeepSeek出走大神

刚刚，百度开源模型Unlimited OCR拿下全球第一！作者疑似DeepSeek出走大神

刚刚，百度开源模型Unlimited OCR拿下全球第一！作者疑似DeepSeek出走大神

最新开源的Unlimited OCR，总参数3B，实际激活仅500M——放在大模型时代几乎是个零头。但就是这个小到离谱的模型，在OmniDocBench v1.5上拿下93.23%的综合分，v1.6更是达到93.92%，直接刷新了端到端SOTA。

来自主题: AI资讯

15474 点击 2026-06-22 20:06

PaddleOCR：82k+ Stars的国产OCR天花板，0.9B小模型精度反超GPT-5.5

PaddleOCR：82k+ Stars的国产OCR天花板，0.9B小模型精度反超GPT-5.5

PaddleOCR：82k+ Stars的国产OCR天花板，0.9B小模型精度反超GPT-5.5

大模型再强，也读不懂你公司那一柜子的合同、发票和扫描件。在"纸张世界"和"LLM世界"之间，缺一座桥——而百度开源的 PaddleOCR，可能就是当下最稳的那座。

来自主题: AI技术研报

7277 点击 2026-06-17 10:32

全球OCR新王来自中国开源！GitHub狂揽73300+Star

全球OCR新王来自中国开源！GitHub狂揽73300+Star

全球OCR新王来自中国开源！GitHub狂揽73300+Star

GitHub OCR项目之王刚刚历史性易主。

来自主题: AI技术研报

6893 点击 2026-03-31 10:29

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

过去几年，多模态模型在理解任务上快速演进，图像问答、OCR、视觉推理、跨模态对话等能力不断提升；与此同时，图像生成模型也在视觉质量、指令遵循和细节表达上持续突破。下一步一个自然的问题是：能否用同一个模型，同时做好理解与生成？这正是统一多模态模型（Unified Multimodal Models, UMMs）正在回答的问题。

来自主题: AI技术研报

7441 点击 2026-03-26 14:45

AI读不懂文档结构？计算所重构Agentic RAG文档推理能力

AI读不懂文档结构？计算所重构Agentic RAG文档推理能力

AI读不懂文档结构？计算所重构Agentic RAG文档推理能力

DeepRead让AI像人一样阅读文档：利用OCR识别章节结构，先精准定位相关段落，再完整读取上下文，避免碎片化检索。实验显示，其长文档问答准确率提升17%，能自动跳过冗余信息，精准提取财报、论文等复杂内容，无需额外知识图谱，轻量高效。

来自主题: AI资讯

8825 点击 2026-03-16 14:26

智谱开源OCR！测完我把手机里的扫描软件都卸了......

智谱开源OCR！测完我把手机里的扫描软件都卸了......

智谱开源OCR！测完我把手机里的扫描软件都卸了......

OCR模型究竟能干什么？干得怎么样？

来自主题: AI资讯

8974 点击 2026-02-12 11:30

Gemini 3「开眼」像素级操控！谷歌回应DeepSeek-OCR2

Gemini 3「开眼」像素级操控！谷歌回应DeepSeek-OCR2

Gemini 3「开眼」像素级操控！谷歌回应DeepSeek-OCR2

没想到吧，Google DeepMind刚刚为Gemini 3 Flash推出了一个重量级新能力：Agentic Vision（智能体视觉）。（难道是被DeepSeek-OCR2给刺激到了？）

来自主题: AI资讯

10621 点击 2026-01-28 18:06

刚刚，DeepSeek又探索新架构了，开源OCR 2

刚刚，DeepSeek又探索新架构了，开源OCR 2

刚刚，DeepSeek又探索新架构了，开源OCR 2

嘿！刚刚，DeepSeek 又更新了！这次是更新了十月份推出的 DeepSeek-OCR 模型。刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构，实现了视觉编码从「固定扫描」向「语义推理」的范式转变！

来自主题: AI资讯

9987 点击 2026-01-27 17:15

DeepSeek又拿第一！首创「因果流」视觉推理，超越Gemini

DeepSeek又拿第一！首创「因果流」视觉推理，超越Gemini

DeepSeek又拿第一！首创「因果流」视觉推理，超越Gemini

DeepSeek开源DeepSeek-OCR2，引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序（从左上到右下）扫描图像的限制，转而模仿人类视觉的「因果流（Causal Flow）」逻辑。

来自主题: AI技术研报

6878 点击 2026-01-27 16:51

DeepSeek最新王炸模型：VLM架构重磅突破，AI像人一样读图

DeepSeek最新王炸模型：VLM架构重磅突破，AI像人一样读图

DeepSeek最新王炸模型：VLM架构重磅突破，AI像人一样读图

这一框架可用于集成额外文本、语音和视觉等多种模态。

来自主题: AI技术研报

10240 点击 2026-01-27 16:15

上一页当前第1页,共7页下一页