Sora死了4个月后,谷歌终于出手了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Sora死了4个月后,谷歌终于出手了
8958点击    2026-07-02 11:05

故事是这样的。


今年3月24号,OpenAI宣布关停Sora。


不是暂停,不是调整,是关停。App 4月26号下线,API 9月24号彻底断掉。


Sora死了4个月后,谷歌终于出手了


而这时候,距离Sora正式向公众开放,才过了6个月。


一个被全世界捧成「AI视频革命」的产品,每天烧掉OpenAI大概100万美元的算力,结果从上线到关停,总共才赚了210万美元。迪士尼带着10亿美元和200多个角色IP来签约,都没能救活它。


在AI视频这个赛道上,技术牛逼和商业成立之间,隔着的距离,比我们想象的要远得多。


然后,过了4个月。


昨天,6月30号,谷歌出手了。


连发两款新模型,一个叫Nano Banana 2 Lite,做图像生成的。一个叫Gemini Omni Flash,做视频生成和编辑的。


Sora死了4个月后,谷歌终于出手了


图像侧,Nano Banana家族现在凑齐了四档


这其实不是谷歌第一次发Nano Banana了,今年2月发了Nano Banana 2,5月发了Nano Banana Pro。加上这次的Lite,加上旧版那个被谷歌官方建议「赶紧升级别用了」的初代Nano Banana,现在这个家族一共四款产品。


Sora死了4个月后,谷歌终于出手了


最顶上是Nano Banana Pro,给专业设计师用的,复杂推理、4K精度、创意控制。中间是Nano Banana 2,通用主力,谷歌自己说的是「性能跟成本的最佳平衡点」。最下面是这次的Nano Banana 2 Lite,定位三个词,快、便宜、走量。跟卖车一样,Pro是旗舰,2是走量款,Lite是入门版。


但Lite这个「入门版」,参数一点都不入门。


Sora死了4个月后,谷歌终于出手了


先说速度,平均不到3秒一张图。


再说价格,每张图大概是banana2的一半价格。


而且更骚的是,Lite虽然是入门版,在文生图的Elo评分上拿了1251分,比它家Pro版的1270分就差了不到20分。当然,这是1K分辨率下的成绩,Pro支持到4K,Lite只有1K。但最便宜的模型用一半的价格近乎达到了旗舰的水平,这件事本来就挺有意思的。


Sora死了4个月后,谷歌终于出手了


Lite从昨天开始已经在Google AI Studio、Gemini API、Gemini app、NotebookLM、Google Photos、Google Ads这些地方都能用了。


视频侧,这次真正的重头戏


Gemini Omni Flash。


这个名字里的Omni不是随便加的,谷歌之前发过Gemini Omni,定位是多模态全能模型。这次的Omni Flash,你可以理解为全能模型的视频特化版,加了Flash后缀意思是便宜快速。


它的核心能力一句话就能说清楚,用自然语言生成和编辑视频。


你打一段文字描述,它给你出一个10秒的视频。你看完觉得不满意,继续说「把背景换成傍晚的天空」「这个人的步伐再慢一点」,它就按你说的改。支持文本、图片、视频三种输入方式混着来。


有一个细节挺关键,Omni Flash背后接的是Gemini的知识体系。谷歌说它可以调用Gemini对历史、生物、叙事逻辑的理解来构建视频内容。你让它生成一个「古罗马斗兽场的角斗场景」,其他视频模型是在训练数据里找斗兽场的画面拼出一个看起来像的东西。Omni Flash多了一层,它通过Gemini「知道」斗兽场的建筑结构是什么样的、角斗士穿什么盔甲。


Sora死了4个月后,谷歌终于出手了


一个是「看着像就行」,一个是「理解了再做」。


当然,这是理论上的,实际表现要等更多人上手测试才知道。


而且说实话,Omni Flash现在的限制也不少。只能生成10秒视频,谷歌自己也在博客里坦诚了「更长时长coming soon」。场景切换的时候角色一致性有局限,自定义音频上传也还没支持。视频参考输入虽然在API schema里能接受3秒,但博客明确说了「目前模型还不能正确处理这些参考视频」。所以现在的Omni Flash,坦率的讲,更像一个技术预览版,实际上它也确实是public preview。Interactions API目前支持最多3轮连续编辑,能玩,但还不能拿来干正经活。


Sora死了4个月后,谷歌终于出手了


安全性上,两款模型都用了SynthID水印,生成的内容可以通过Gemini app或Chrome里的Gemini来验证是否是AI生成的。


定价是每秒视频输出0.10美元,跟谷歌自家Veo 3.1 Fast一个价。10秒视频就是1美元,差不多7块人民币。


谷歌还搞了三个Demo App来展示图像跟视频联动的效果,而且代码可以remix。


Sora死了4个月后,谷歌终于出手了


Anywhere,你上传一张自拍,Nano Banana 2 Lite把你合成到全球任何一个地标前面,然后Omni Flash把它做成一段带运镜的动画。Space Lift,拍一张你房间的照片,AI重新设计室内方案,然后生成一段电影级的空间预览视频。Omni Product Studio,一张静态产品图,直接转成电商展示视频。


这三个Demo的思路非常清楚,先用Nano Banana 2 Lite生成图像,再把图像喂给Omni Flash做成视频。图像→视频,一条龙。


谷歌在博客里写了一句我觉得挺关键的话。


「真正的魔法发生在你把这两个模型串在一起的时候。」


谷歌的真实意图


这句话才是谷歌真正的意图。不是靠某一个模型打赢某一个对手,是让你的整个创作流程离不开它。


你把谷歌最近半年在AI创作做的事情串起来看,模式很清晰。图像侧,Nano Banana家族四档,从个人用户到企业客户全层级覆盖,你的需求在哪个档位,总有一档卡着你。视频侧,Veo 3.1打天花板做4K画质,Omni Flash打大众市场。而且两边不是各玩各的,NB生成的图可以直接喂给Omni Flash做动画,所有东西都在Gemini API里统一计价、统一权限。


你想想看一个电商团队,用Lite批量生成产品图,挑几张满意的,用Omni Flash转成展示视频。全程一个账号、一套账单。从一个产品图到一个完整的商品详情页,可能20分钟,不到10块钱。


这不就是在搭一个AI创作的全家桶吗。


Sora死了4个月后,谷歌终于出手了


反观OpenAI,GPT-image-1做图像,Sora做了视频但死了,图像和视频之间没有联动。Sam Altman前几天还在X上说视频是他们「必须赢的战场」,但你说你必须赢的时候,其实已经说明你落后了。


当然,谷歌也有它自己的问题。Omni Flash现在只能10秒,角色一致性还不够稳。Veo 3.1满血版要250美元一个月。各种区域限制、各种功能灰度,这些老毛病一个没少。但我想说的不是产品好坏,是方向。


Sora每天烧100万美元证明了纯靠技术牛逼撑不起一个产品,现在谷歌拿着Sora留下的遗产,加上自己全家桶的工程能力,准备把这个方向走下去。


走下去能不能成,我不知道。


但至少,路看起来是对的。


文章来自于"毒AI",作者 "高晓阳"。

AI转型,免费服务,就找AITNT