AI资讯新闻榜单内容搜索-Qwen3-VL

独家｜字节迎战阿里快乐马：开源多模统一模型Mamoda2.5，推理速度快18倍

独家获悉，字节跳动日前低调公布全球首个25B级、基于混合专家 (MoE) -扩散自注意力机制(DiT) 的开源增强统一多模态模型Mamoda2.5。Mamoda2.5依托Qwen3-VL-8B、128 个专家，Top-8 路由的MoE+DiT架构搭建，最终模型参数高达250亿，而每次仅激活约30亿参数（约12%）。

来自主题: AI资讯

10171 点击 2026-05-06 10:44

刚刚！阿里开源 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型！图片和视频也可以做RAG了～

今天，Qwen 家族新成员+2，我们正式发布 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列，这两个模型基于 Qwen3-VL 构建，专为多模态信息检索与跨模态理解设计，为图文、视频等混合内容的理解与检索提供统一、高效的解决方案。

来自主题: AI资讯

10484 点击 2026-01-08 23:28

Thinking Machines首款产品重大更新：K2 Thinking、Qwen3-VL都可以微调了

当前，AI 领域的研究者与开发者在关注 OpenAI、Google 等领先机构最新进展的同时，也将目光投向了由前 OpenAI CTO Mira Murati 创办的 Thinking Machines Lab。

来自主题: AI技术研报

6684 点击 2025-12-16 16:31

只有0.9B的PaddleOCR-VL，却是现在最强的OCR模型。

整个Hugging Face的趋势版里，前4有3个OCR，甚至Qwen3-VL-8B也能干OCR的活，说一句全员OCR真的不过分。然后在我上一篇讲DeepSeek-OCR文章的评论区里，有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比，也有很多人都在问，能不能再解读一下百度那个OCR模型（也就是PaddleOCR-VL）。

来自主题: AI资讯

11394 点击 2025-10-23 10:58

仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

智东西10月15日报道，今日，阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本，两个尺寸均提供Instruct与Thinking版本，在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。

来自主题: AI资讯

11618 点击 2025-10-15 17:05