MiniMax押注线性注意力,让百万级长文本只用1/2700算力|对话MiniMax-01架构负责人钟怡然
MiniMax押注线性注意力,让百万级长文本只用1/2700算力|对话MiniMax-01架构负责人钟怡然Transformer架构主导着生成式AI浪潮的当下,但它并非十全十美,也并非没有改写者。
Transformer架构主导着生成式AI浪潮的当下,但它并非十全十美,也并非没有改写者。
一叠便签纸、一个普通书签和一支笔,售价2美元(折合人民币14.7元)。一个能做类似事情的钛合金AI书签,售价129美元(折合人民币947元),你会心动吗?
最近一段时间,各家新势力都在角力部署端到端的智能驾驶系统。
港中文和清华团队推出Video-R1模型,首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集,Video-R1在视频空间推理测试中超越了GPT-4o,展现了强大的推理能力,并且全部代码和数据集均已开源。
两个月后就号称要淘汰GPT-4.5的GPT-4.1,实力究竟如何?在众多实测中,它的表现的确可圈可点,但却依然打不过Gemini 2.5 Pro和Claude 3.7 Sonnet。那么问题来了,OpenAI为何要发布一个远远落后于谷歌的模型?
知名科技记者马克·古尔曼曾在3月爆料,苹果公司的Siri可能要到2027年才能真正实现现代化的对话式功能。这个爆料并非空穴来风。苹果向来是科技行业的风向标,其遵循押注未来科技发展趋势,而非仅追求当前利益。在2023年,库克就宣布计划每年花费10亿美元开发生成式AI产品,但事实却是——与其他科技巨头相比,苹果的AI步伐迟缓无比。
国内大模型赛道出现了第一家启动 IPO 的创业公司。
前段时间,GPT-4o 火出了圈,其断崖式提升的生图、改图能力让每个人都想尝试一下。虽然 OpenAI 后来宣布免费用户也可以用,但出图慢、次数受限仍然困扰着没有订阅 ChatGPT 的普通人。
移动GUI自动化智能体V-Droid采用「验证器驱动」架构,通过离散化动作空间并利用LLM评估候选动作,实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。
虽然扩散模型在视频生成领域展现出了卓越的性能,但是视频扩散模型通常需要大量的推理步骤对高斯噪声进行去噪才能生成一个视频。这个过程既耗时又耗计算资源。例如,HunyuanVideo [1] 需要 3234 秒才能在单张 A100 上生成 5 秒、720×1280、24fps 的视频。