AI资讯新闻榜单内容搜索-ViT

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: ViT

单个tokenizer胜任图像视频理解生成！南大&腾讯混元HYDRA打通多模态统一难题

单个tokenizer胜任图像视频理解生成！南大&腾讯混元HYDRA打通多模态统一难题

单个tokenizer胜任图像视频理解生成！南大&腾讯混元HYDRA打通多模态统一难题

南大王利民团队&腾讯混元的HYDRA系列（HYDRA，HYDRA-X）工作挑战了这个惯例，用一个基于ViT的统一视觉Tokenizer，帮助原生多模态模型更好地“看懂”和“创作”。训练一个基于ViT的Unified Tokenizer，使其同时具有理解和生成的能力，进而同时作为理解和生成的Autoencoder，来支持原生多模态模型（Unified Multimodal Models）的训练。

来自主题: AI技术研报

8193 点击 2026-06-28 11:13

阶跃发布Step 3.7 Flash：一款为「烧钱时代」准备的Agent模型

阶跃发布Step 3.7 Flash：一款为「烧钱时代」准备的Agent模型

阶跃发布Step 3.7 Flash：一款为「烧钱时代」准备的Agent模型

继 Step 3.5 Flash 后，阶跃星辰最近又推出新一代高效率 Flash 开源模型 ——Step 3.7 Flash。该模型最大特点就是多（模）、快（速）、好（用）、省（钱）。总参数 196B，采用稀疏 MoE 架构，推理激活参数仅 11B，配备 1.88B ViT 视觉编码器，推理速度最高 400 TPS，支持 256K 上下文。

来自主题: AI资讯

9514 点击 2026-05-29 17:06

在眼镜里Vibe Coding！姜公略给VITURE找到“XR该有的样子”

在眼镜里Vibe Coding！姜公略给VITURE找到“XR该有的样子”

在眼镜里Vibe Coding！姜公略给VITURE找到“XR该有的样子”

他身前是13英寸笔记本，眼前铺开的则是174英寸的超宽屏幕。这块屏幕来自这幅XR智能眼镜，屏幕上同时铺着三个窗口：左边是Claude Code，代码正一行行往外吐；中间是编辑器，光标在等他的下一次指令；右边是飞书，同事刚发来一条消息。而这并非幻想画面。实际上，这是使用VITURE眼镜进行vibe coding的新潮流。

来自主题: AI资讯

8953 点击 2026-05-23 11:55

从《Time》年度发明到北美销量No.1，VITURE如何让XR眼镜「有用」？

从《Time》年度发明到北美销量No.1，VITURE如何让XR眼镜「有用」？

从《Time》年度发明到北美销量No.1，VITURE如何让XR眼镜「有用」？

很多人知道，苹果 Vision pro 是 VR 眼镜的市场标杆产品，Meta和Google都曾大举进军AI眼镜，但鲜有人知的是，2025年冲到北美第一的 XR 眼镜，是一家很低调的公司——VITURE。

来自主题: AI资讯

6128 点击 2026-05-22 09:27

美国豆包实至名归——“反重力”2.0引众怒：IDE功能被剥离，开发者被迫回退旧版。

美国豆包实至名归——“反重力”2.0引众怒：IDE功能被剥离，开发者被迫回退旧版。

美国豆包实至名归——“反重力”2.0引众怒：IDE功能被剥离，开发者被迫回退旧版。

谷歌旗下AI开发工具Antigravity（反重力）近日推送2.0版本更新，却引发开发者社区强烈反弹。这次被官方称为"升级"的更新实际上将原有的VS Code风格IDE功能剥离，替换为纯Agent模式界面，导致大量用户配置丢失、插件失效，开发者纷纷寻找回退方案。

来自主题: AI资讯

9466 点击 2026-05-22 09:26

Gemini 3.5来了！今夜，谷歌亲手淘汰谷歌

Gemini 3.5来了！今夜，谷歌亲手淘汰谷歌

Gemini 3.5来了！今夜，谷歌亲手淘汰谷歌

劈柴和Hassabis把半年大招一晚清仓了！Gemini Omni任意输入生成视频，3.5 Flash断层碾压一切，Spark 7×24h云端替你干活。这次，谷歌是要把OpenAI和Anthropic一起给埋了。

来自主题: AI资讯

9189 点击 2026-05-20 09:13

CVPR 2026 Oral | 清华+阿里发布ViT³：解锁「视觉TTT」新架构，突破Transformer复杂度瓶颈

CVPR 2026 Oral | 清华+阿里发布ViT³：解锁「视觉TTT」新架构，突破Transformer复杂度瓶颈

CVPR 2026 Oral | 清华+阿里发布ViT³：解锁「视觉TTT」新架构，突破Transformer复杂度瓶颈

序列建模是大语言模型、计算机视觉等领域的基础共性问题。当前通用的 Transformer 模型计算复杂度随序列长度平方增长，在长序列任务中面临显著的计算挑战。因此，研究者们一直在探索具有线性计算复杂度的高效序列建模方法。

来自主题: AI技术研报

5977 点击 2026-05-18 15:30

速递｜诺奖得主加盟，AI+抗衰疗法爆了！“人类基因组之父”创办！

速递｜诺奖得主加盟，AI+抗衰疗法爆了！“人类基因组之父”创办！

速递｜诺奖得主加盟，AI+抗衰疗法爆了！“人类基因组之父”创办！

近日，专注于精准健康与长寿医学的美国公司Human Longevity宣布，人工智能先驱、诺贝尔奖化学奖得主Geoffrey Hinton加入公司担任科学顾问。

来自主题: AI资讯

7715 点击 2026-04-14 17:50

模型砍掉一大半，准确率反升15%！华科&阿里安全新研究实现ViT近乎无损的类特定压缩｜ICLR'26

模型砍掉一大半，准确率反升15%！华科&阿里安全新研究实现ViT近乎无损的类特定压缩｜ICLR'26

模型砍掉一大半，准确率反升15%！华科&阿里安全新研究实现ViT近乎无损的类特定压缩｜ICLR'26

近年来，视觉大模型在自动驾驶、智慧医疗等场景中得到广泛应用，但在真实业务环境中，“大而全”的通用模型往往并不是最优选择。

来自主题: AI技术研报

6355 点击 2026-03-06 09:32

Loop-ViT：让AI学会「反复思考」，3.8M参数小模型追平人类平均水平

Loop-ViT：让AI学会「反复思考」，3.8M参数小模型追平人类平均水平

Loop-ViT：让AI学会「反复思考」，3.8M参数小模型追平人类平均水平

当我们解一道复杂的数学题或观察一幅抽象图案时，大脑往往需要反复思考、逐步推演。然而，当前主流的深度学习模型却走的是「一次通过」的路线——输入数据，经过固定层数的网络，直接输出答案。

来自主题: AI技术研报

10392 点击 2026-02-13 11:08

上一页当前第1页,共6页下一页