Z Potentials | 大厂进场3D的这一年,影眸Hyper3D凭什么还是最强3D模型开发者

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Z Potentials | 大厂进场3D的这一年,影眸Hyper3D凭什么还是最强3D模型开发者
8143点击    2026-06-23 16:45

Z Potentials | 大厂进场3D的这一年,影眸Hyper3D凭什么还是最强3D模型开发者


2020年,吴迪读研一,张启煊念大三,他们跟同为上海科技大学学生的张龙文、曾初啸一起创办了影眸科技。公司早期做过一系列有关3D与生成的探索——做过穹顶光场扫描,做过二次元APP,做过数字人,踩过元宇宙的尾巴,也经历过几乎没有现金流的至暗时刻。2024年,他们几乎把所有筹码押在一个当时没人做出来过的东西上——原生3D生成大模型Hyper3D Rodin。然而,正是这一赌注,引领了整个行业的主流技术转向。


Rodin Gen-1发布约半年后,影眸科技在2025年的7个月时间里快速完成了2轮千万美元级融资——1月由美团龙珠、字节跳动领投A轮,8月由蓝驰创投领投A+轮。近日,影眸科技宣布完成新一轮数亿元人民币融资。本轮融资由凯辉基金、上海国投先导领投,老股东持续跟投。与此同时,Hyper3D Rodin大模型也迭代到了Gen-2.5。作为全球首个千万面级3D生成模型,Rodin Gen-2.5首次将类大语言模型的“先思考、再生成”运行逻辑引入3D生成领域,并同步推出全球首个12K精度的原生3D贴图模型。


在此之前,影眸已经陆续上线了业内唯一的3D编辑、递归分件技术BANG、以及支持边框盒/体素/点云的3D ControlNet,将3D生成从"抽卡"推进到了可编辑、可控制的生产工作流。


他们是业内唯一连续多年拿到国际图形学顶级会议SIGGRAPH最佳论文及提名的商业公司,其算法团队每2人中就有1人获得或提名最佳论文。他们的研发体系和DeepSeek高度相似:没有KPI,不打卡,本科生直接lead项目。


有意思的是,这样一家公司几乎不为自己吆喝。曾有投资人为此给吴迪打了三个小时电话,催他PR再用力一点,这样增长能再快一点。彼时竞对正以惊人的速度融资、扩张、刷估值。吴迪有时候会焦虑上几天,但穿越过周期的沉淀让他更能守住长期节奏——产品增速可观,留存也领先行业。于是,他依旧该干嘛干嘛——上一轮融资照样没怎么发PR。我们采访前想搜点近期访谈做参考,几乎一无所获。


与外界的节奏相比,他们的另一组数字是这样的:截至目前,他们B端的订单量,超过了同赛道其他公司之和;Rodin Gen-2.5发布后首月,订阅用户与ARR环比增速均超400%;过去一年里,客户没有流失过一个;运营团队只有同行的十分之一;平均每九天上线一个新功能。英伟达CES Keynote的主视觉,用的是他们生成的3D资产;Unity AI接入了他们的引擎;OpenAI首届Codex Hackathon的冠军项目,也选择了Hyper3D。


但吴迪更愿意聊的不是这些光环。他说,为了搞清楚3D打印到底需要什么样的模型,影眸买了一堆打印机自己打;为了适配工业设计,研究员跑去学Rhino和各种CAD软件;训模型的人,都得会接Blender的渲染节点,每一篇技术报告的演示视频都由技术团队使用Blender亲自制作。他觉得3D大模型的壁垒不在基模——可能再过一两年大家都会拉齐基模能力——真正的壁垒藏在这些大厂不愿碰的脏活累活里。影眸科技在近期发布了最新一代模型Hyper3D Rodin Gen-2.5。这是全球首个具备千万面级生成能力的3D大模型,首次将类大语言模型的“先思考、再生成”运行逻辑引入3D生成领域(3D几何生成与贴图生成),同一套模型自适应响应从创意探索到生产交付的全链路需求,将3D生成的可控性推进至全新阶段。


要做到行业领先的可控性并不容易,影眸科技认为他们的优势在于没有“学术惯性”。例如,他们最开始坚持3D原生,不走2D升维;后来研究分件技术,不照搬做分类的方法——总在探索新技术时绕开那条"看起来对"的路。这次访谈里,他们聊了不少平时不太公开说的判断:3D根本不是一个行业;Scaling Law在3D领域撞墙比语言模型更早;3D生成是world model的必需品,但他们不愿蹭“世界模型”的概念。


访谈当天,恰好是影眸科技成立六周年。两个人都还很年轻,却已经完整经历过元宇宙泡沫、融资寒冬和大厂入场的几轮周期。吴迪说,现在不太会被市场上那些疯狂的情绪裹挟了。


以下是他们难得的一次完整对话。


  • 3D不是一个行业,它是不同的分门别类的领域——例如游戏、3D打印、CAD、智能制造。评测这件事在3D领域内很难完成,因为游戏要低面好拓扑,3D打印要超高精度,工业要倒角清晰、硬表面光滑——需求根本不在同一个坐标系里,这也是Rodin Gen-2.5推出5种生成模式的根本原因。
  • 语言模型到现在没有特别出色的垂直模型,但在3D上,各领域的垂直模型特别重要。所以如果一定要跟语言模型比,现在到O1的阶段了——通过不同的thinking实现test-time scaling,而不是继续堆参数。
  • 行业里有公司去年年底做用户统计,用户最想要的功能是我们的3D editing,但事实证明复刻很难。现在是模型即产品,模型上的设计想模仿需要的时间完全不同。
  • 大厂的目标是证明"我技术上必须有这个模态",但不会针对某个场景做深入适配。3D领域的脏活累活反而是我们和大厂的差异化。
  • 撕开“世界模型”的标签,大家做的还是机器人行为策略、实时视频生成、三维场景生成。现在世界模型有点像当年的元宇宙——创业公司跟着概念设计产品,而不是产品刚好fit概念。
  • 我们团队比较善于摆脱学术惯性。做3D原生的时候学术惯性是2D升维,做分件的时候学术惯性是直接做分类——友商和某大厂后来上线的方案,就是我们试过并放弃了的路径。
  • 只有当一个学者没有毕业压力之后,他才会真的做出代表作。我们两年三项最佳论文提名/获奖,都不是为了发而发,都是做了一年研发、在产品中有了突破才写的。


01 开创3D生成“Thinking”时代:Rodin Gen-2.5 背后的技术选择与取舍


ZP:你们刚刚发布的Rodin Gen-2.5是全球首个千万面级3D生成模型,最快4秒生成百万面,并推出了12K原生贴图。这一代模型和上一代的本质差别在哪?


张启煊:这次最大的特点是我们引入了一个叫Thinking Effort的机制。Gen-2.5 对生成时长的控制是连续的——从4秒到80秒之间平滑可调,并非几个相互割裂的固定模式。为便于使用,产品将这一连续能力归纳为五档Thinking Effort,覆盖从快速草稿到极致精模的不同场景。。这让三维生成模型第一次有了类似大语言模型的"思考"调度能力——针对不同任务难度分配不同的计算量。


比如UGC项目基本会选最快的模式或中等速度模式,25秒左右,是比较合理的响应时间。美术流程要的高精度模型,就可能选80秒雕塑级的。不需要那么多细节的——细节多了美术还要手动抹掉——可能选40秒。


背后是我们对过去一两年整个3D生成行业的观察:很多用户在不同需求下会选择不同供应商的模型。我们想做的就是通过一套机制,让模型自动去fit用户不同的需求。


ZP:这算不算一种过度设计?用户可能不会去研究该选哪个档位,他只想要一个最好的结果。


张启煊:时间其实是这个设计的附加产物,我们真正要解决的不是用户对不同时间的需求,而是对不同模型风格的需求。比如这里有个包,表面有很多小纹路——他是希望这些纹路体现在贴图上,还是在模型表面有这些纹路?不同人有不同需求。如果是做雕塑,可能就希望体现在表面,因为没有贴图;如果最后是要真的去生产这个包,可能就希望体现在贴图上。


怎么去控制这个点?我们发现token长度是一个好的媒介——token越长,它会越倾向于表示更多细节;token越短,它没有这个细节表示能力,自然就不会去表示这些细节。但token长短带来的附加产物就是推理时间的长短。这是一整个逻辑链条。顺便,推理时间更快了还能满足更多UGC的玩法需求。


ZP:这个更新对用户意味着什么?


张启煊:他可以花更少的钱,体验到更多模型的效果。在Rodin Gen-2.5的Medium模式下,用户可以一口气生成10个模型。之前即使是我们这样高度可控的模型,抽卡还是件很烦的事,只能一个个抽。现在生成速度快了之后可以一口气抽10个再选,对我们服务器也不会造成太大压力。


ZP:这个思路和语言模型的思考机制有类似之处,从语言模型做到3D,难度在哪里?


张启煊:语言模型为什么能做到?因为它是next token prediction,token本来就是变长的。但三维生成我们用的是flow matching路线,token大部分情况下是定长的。不过我们在最开始提出CLAY(2024年Rodin Gen-1的核心框架,该技术论文获2024年计算机图形学顶级会议ACM SIGGRAPH的最佳论文提名。的时候就引入了变长的设计,只是当时引入变长设计只是为了方便训练,没有去探索它更深的价值。这次在Gen2.5里我们更深地探索了它背后的潜在价值,激发了这个能力。据我们所知,之前也没有人做过。


ZP:这一代你们重做了原生贴图(材质)框架。材质这部分在整个3D生成里,处在一个什么位置?


吴迪:直接决定了贴图的可用性。3D生成就两部分,模型和材质。原来AI 3D生成的材质,都只能用来看看。真的要接到生产流程里基本得重做一遍,除非放在边角的位置。我们这一代用了一个全新的框架做材质,难度不亚于完整训练一个图像生成模型,才把材质推到了可用线上。


张启煊:我举个更具象的例子。图像生成里面文字绘制一直是个很难的问题,直到去年下半年才逐步被解决,到现在已经是标配了。我们给3D贴图模型投入了与图像生成同等量级的训练资源,VAE性能甚至超越了Flux 2。


它不仅具备文字绘制的能力,更在12K精度下实现了超越实景扫描的几何精度和材质保真度。例如,你去生成一个人脸,它能够生成到眼角的细小皱纹都能看清楚。我们原来做人脸扫描,这是个相当难的事情,就算拿20多台高精度相机都不一定能拍得那么清晰。


ZP:Gen-2.5算是一个中间版本还是大版本?Gen-3什么时候?


张启煊:中间版本。整数版是全新架构,点五版是在整数版基础上验证新架构。Gen-2.5基座模型用的还是Gen-2。到Gen-3,我们会从零开始用新基座训新架构。版本间隔基本上是6个月,中间每隔2到4个月会发一个小版本。


ZP:预计到哪个大版本的时候,AI 3D就可以直接投产?


吴迪:这个有点难以预期,尤其是3D在不同场景里需求不一样。就以游戏举例,高质量的3A游戏和《蛋仔派对》这样的手游,对模型需求都是不一样的。我觉得Gen-2.5已经带来了一个巨大的人工修改成本下降。


张启煊:其实部分场景已经能直接投产了,比如3D打印,比如《蛋仔派对》——可以认为它在部分游戏行业已经能够投产。


02 游戏要低面,打印要高精,工业要光滑:忘掉"3D行业"这个词,它根本不存在


ZP:启煊之前说过"3D生成大概只到GPT-2的水平",这句话被广泛引用。过去一年参数上了百亿、原生3D成了共识、大厂全面进场——按你现在的判断框架,现在到GPT几了?


张启煊:我现在感触最深的一点是,它跟GPT的路线还是不一样的。GPT一直到GPT-4是一个重要的飞跃,Scaling Law被验证。但从GPT-4开始大家就质疑Scaling Law有没有碰壁。这件事情在3D上发生得更早——差不多在4B参数左右的时候,我们就开始思考,是不是加更多参数跟更多数据量就能达到更好的效果。我们当时的判断是"不是",现在看起来有点失误,但核心逻辑是对的:3D跟语言模型相比,不是光靠加参数就能scaling的。


3D的scaling会发生在应用场景上,需要你为各个场景做专用的适配、各种风格的迁移。所以我们在Gen-1.5的时候做了一个专门的RLHF版本,针对不同的模型风格做了不同的后训练,希望它能满足不同行业的需求。它们的发展路线跟语言模型是不同的。


语言模型到现在为止,我们没有看到特别出色的垂直模型——除了Coding,但现在Coding模型跟主模型也已经基本合并了。而在3D上,各个领域的垂直模型是特别重要的。这个点集中体现在我们在Gen 2.5里引入了Thinking Effort。所以如果一定要跟语言模型比的话,现在其实到O1的那个阶段了,大家通过不同的thinking能够实现test-time的scaling。


ZP:你刚才纠正了一个前提——3D不是一个行业。能展开说说这个判断吗?


吴迪:这是我们非常和其他家不一样的想法。3D是由不同的下游场景构成的,就像大语言模型可以用在Coding、法律各种东西里面一样,3D的下游可能有游戏、3D打印、CAD产品设计、智能制造。所以3D不是一个领域,它是不同的分门别类的领域。这是所有人对3D的一个误区。


评测是很难做的,大家现在看3D模型好不好,最多看细节量大不大,能不能把皮肤褶皱表达出来。但不同垂直场景里需求不同。比如3D打印——尤其是光固化——确实需要高精度,把细节全部体现在模型上。但游戏反而需要更低面、拓扑更好的模型,加上比较好的材质。工业需要的是倒角清晰、硬表面光滑。图像和视频的消费级模态已经非常清晰了,但3D并不是这样。


ZP:3D生成在学术圈的生态现在是什么状况?


张启煊有一个比较欣喜的事情。你会发现在大语言模型实现突飞猛进、头部主流厂商都选择闭源之后,整个学术圈对语言模型的突破性研究越来越少。图像生成领域现在是开源厂商主导的,学术圈开源的图像工作依然很活跃。3D生成介于两者之间——顶级模型现在都是闭源的,包括我们和友商的各种商业模型——但这并没有让3D的开源和学术研究生态受到很大影响。过去一年,大量的3D生成工作依然在学术圈有很大的号召力和吸引力,今年刚结束的CVPR最佳学生论文就颁发给了3D生成领域的开源之王TRELLIS.2。


一个有意思的巧合是,TRELLIS.2之前我们CLAY也拿了应该是3D生成第一个Best Paper提名,跟TRELLIS.2拿Best Paper的刚好在同个地点——都是在丹佛举办的CVPR和SIGGRAPH,同一个会议厅。3D生成依然是一个开放的生态。


03 “可控性”是这家公司最执拗的信仰


ZP:影眸这两年密集推出了BANG分件、3D ControlNet、自然语言编辑、局部重做。这套可控性体系背后有没有一以贯之的思路?又是怎么排优先级的?


张启煊:优先级很简单,先做简单的。如果这个东西只需要对数据进行一些编排,那我们就探索性地去做。比如分件,我们做了一年半——第一年浪费在错误的方向上,然后花了两个月实现了一个特别的技术突破,又花了四个月把它巩固到最新的基座模型上。


吴迪:分件这件事花了很多精力。因为“分件”实在是太明确的需求——建模这个事就离不开分件,不分件的模型就很难用。所以我们一开始就开始做。但第一想法——就像当年大家做3D先用2D升维一样——肯定是先聚类,先判断物体上某些点属于哪个part,再做分割。但这条路径我们迭代了很久,一直都是错的。直到一个新的技术路径被想出来,才到了可用的状态。但我们不会急着让它以不可用的状态上线。


张启煊:所以我们其实不是第一个上线分件功能的。但我们上线的时候,业内已经上线的分件方案就是我们pass掉的方案,因为效果对我们来说不够。


ZP:你们的灵光一现——"Understanding by Generating"这个思路,为什么是你们想到的而不是别的团队?


吴迪:我觉得只能归纳为我们对底层模型、底层架构更加了解。


张启煊:我觉得是我们团队本身比较善于摆脱学术惯性。现在大部分方向都有很强的学术惯性,比如做3D原生生成的时候学术惯性是2D升维,做分件的时候学术惯性是直接做理解、做分类。我们现在的editing还有很多后面新的东西,都是在这个"Understanding by Generating"的框架下进行的。


ZP:3D编辑功能上线后,对用户工作流有什么根本性的改变?


张启煊:我们今年年初最大的工作流变化是编辑。Nano Banana很火,它重新定义了图像领域的路线。我们的3D编辑逻辑相同,拖入任何一个3D模型,用文本直接改。


之前是AI生成模型、人去修,很累。现在自己做个模型丢给AI改。有个用户做了一个马年的玩偶,老板要求改成龙头——丢进我们的工具,说"把头变成龙",直接就改好了。


工作流反过来了:原来先AI再人,现在先人再AI也行了。而且任何第三方平台生成的模型也可以拿到我们这来编辑,不要求是我们平台生成的。


ZP:你们辛苦趟出来的方向,是不是很快就被别人抄走了?这种事你们怎么看?


张启煊: 确实存在像素级复刻我们产品的情况,UI连提示都设计得一模一样,有些功能——像我们的DCC Bridge——连小窗设计各种都做得一模一样。


但这些产品上的设计确实门槛很低。现在是模型即产品,模型上的设计他们想要学习和模仿需要更多的时间。举个例子,我们的3D ControlNet可以在生成前实现长宽高跟大体外形的控制,但到目前为止,几乎没有业内同行可以复刻。


行业也有玩家在去年年底做用户统计,统计出来他们用户最想要的功能是我们的3D editing。但过去快半年了,他们也还没有顺利做出这个功能。所以在模型层面的设计上,这个事情是需要更多时间才能攻克的。


ZP:面对这么多需求,你们是"看准了再动手",还是所有方向都同时往前推?怎么判断一件事该现在做还是先放一放?


张启煊: 我们对行业的需求一直比较敏锐,甚至很多后面才解决的问题,其实第一天就知道它存在。但我们并不是对所有问题都一直有解法。有些灵感来自开源社区跟学术社区的新进展,有些甚至来自其他模态。比如Gen-2的时候一个很重要的变化是我们从标准的Diffusion Transformer变成了flow matching,这个明显是在其他模态上得到了验证。一般如果一条路线我们觉得可行就会立刻去做;如果不行就再想想,所以更多时间其实花在思考跟实验上。


吴迪:我们会对一个产品没有达到可用就deliver出来这件事有非常大的反感。


张启煊: 对。基本上你看到一个功能上线了,我们内部会认为它已经是能满足部分行业需求的状态了。


我们现在内部统计,每9天就会上线一个新的feature。模型的更新频率差不多是2到4个月,整个迭代节奏确实非常快。


吴迪:而且随着组织和团队的扩大,包括agent的不断加入,这个速度会越来越快。


ZP:今年SIGGRAPH上你们有6项工作入选,能挑几个重点方向讲讲吗?


张启煊:跟我们整个团队关注的方向都息息相关,有几篇我要特别介绍。


第一个是CAD生成。现在大家做的3D生成更多是娱乐向的,CAD是直接跟工业生产相关的。我们希望未来3D生成除了在娱乐向的内容上展现价值,还能在智能制造、工业设计这些更深的领域发挥作用,真正提供生产级的能力。


第二个是low poly生成,这是现在3D生成在游戏行业应用面临的巨大问题。我们的Gen 2.5提供了雕塑级的千万面模型,但游戏里要的是性能跟质量并存的均衡模型,往往用low poly表示。但low poly的生成用我们之前flow matching的技术框架往往没有办法完成,所以我们用了auto regressive——更像GPT的方式——去逐个生成面片,这是一条新的技术路线,对团队也是一次新的探索。相关成果的升级版本在我们平台上也可以用到了。


然后还有一项不得不提,但它不在六项之内。我们一共投了8篇,其中有一篇被拒了——是一个三维原生的贴图模型。3D生成我们完成了一次从二维升维到三维原生的技术转变,让它成为了技术主流。但在贴图生成上,之前都还是拿二维升维的方式——生成多角度图像然后投影。我们这次完成的就是三维原生的贴图框架。遗憾的是它被拒了,但我们相信每一篇神作都会有被拒绝的日子——NeRF被拒了一次,Yann LeCun有好多文章被拒了。这可能让这篇文章有成为神作的潜质,需要更多时间检验它的价值。


04 六十人团队,九天一个功能,客户除了倒闭没有流失——一种不靠烧钱的增长节奏


ZP:好像每个公司都能拿出惊艳的Demo,影眸实际的商业化进展如何?


吴迪:商业化路径比较脚踏实地。今年会比去年更激进,包括投放、marketing。但近两三年——除非看到非常大的变化——核心群体定位在B端专业化使用场景。


3D还不是一个C端的模态。C端用户拿到3D模型不知道干嘛。带来变化的可能是VR/AR,是3D打印普及,但这个预期不在我们这一边。


张启煊:我们认同现阶段要占品牌心智——说到3D就得想到Hyper3D、Rodin。但希望更高效地达成,而不是每个月投几百万的流量费。


吴迪:我们客户留存很好——过去一年里,除了倒闭的,没有流失。底层模型稳稳在第一梯队,edit、材质、可控性这些独占功能越来越多。


张启煊我们的产品和定价策略筛选出来的大部分都是专业用户,甚至是准B端,粘性比投流找来的高很多。2.5上线后开始投放,增长很惊人,留存没有变化。


ZP:方便透露下商业化进展吗?


张启煊:据我们所知,我们B端的订单量跟订单金额,比另外两家头部加起来还多。


去年CES上黄仁勋Keynote主页最大的那张图,背后就是用我们生成的模型。OpenAI首届Codex Hackathon,冠军项目用Rodin做的。顶级游戏引擎方面,Unity AI接了两家3D生成模型,一家来自某大厂,另一家就是我们。也和网易蛋仔派对、拓竹等有深度合作。


ZP:有一种担心是,3D生成现在的付费需求集中在几个垂直场景,天花板可能没有想象中高。你们自己算过这笔账吗?


吴迪: 分短期和长期看。短期3到5年内,专业3D就是我们场景的天花板,这个天花板其实不低。全球百万数量级的建模师,Autodesk一年大几十亿美金的营收都集中在3D领域,游戏每年要花一两百亿美金在外包建模上。从专业化使用场景来说,至少是一个500到1000亿美金的市场。


张启煊:但我们现在模型能力探索的即使是专业化场景也比较局限,更多驻在娱乐向的内容探索上——游戏、影视的3D模型,3D打印现在也很多是for fun。但3D领域很大的一个前景是生产和工业向的——汽车的外形、充电宝的外形,甚至医学上用的模型。我们希望未来3D生成在这些行业也能发挥作用,这起码是现在两倍以上的市场。


吴迪: 再往后到3D打印和AR/VR真正普及到个人C端,3D生成就会变成一个底层框架,就像现在手机拍照一样。


张启煊:而且现在大家对3D的重视程度也在提升,刚结束的WWDC上苹果也在它的Foundation Model里内置了三维生成模型。


05 与大厂的差异化藏在他们很难深入的脏活累活里


ZP:过去一年,腾讯混元、阿里、字节都密集推出了自己的3D生成模型,大厂几乎全面进场。这一年它们改变了什么?又有什么是它们没能改变的?


吴迪:改变的可能是大家对这个行业的关注度。但没有改变创业公司仍然是最强模型开发者的局面。


ZP:那你们跟大厂打的是同一仗吗?


吴迪:大厂的使命和我们的使命不一样,他在AI里面需要站到的角色位置和我们要站到的角色定位也不一样,所以是比较差异化的。3D正因为它在不同应用场景里有不同的模型需求和脏活累活要做,这反而能构成和大厂的差异化。大厂的目标主要是得证明"我技术上必须有这个模态",但他不会去做太多针对某个场景非常深入的适配。


ZP:大厂会走免费开放甚至完全开源的策略吗?


张启煊:没发现。腾讯一度开源过,但现在主流模型也不开源了。


ZP:每次看到竞对估值翻得很快的时候,你们内心活动是什么?


吴迪:至少可以翻到百分之六七十的估值,那对我没有影响,而且我花费也是他们的百分之六七十,所以约等于多了30%的空间。


ZP:会因此感觉到投资人的压力吗?


吴迪:会。之前有股东给我打了三个小时电话,“喷”我们增长不够快、PR不够用力。确实有的时候会有压力,有时候心里也会因为这些事焦虑几天睡不着觉。


但后来慢慢就不焦虑了。一方面,我们的增长其实在变得越来越快,更重要的是,我们的留存远比其他家好——产品确实solid,过来的也都是真实用户,不是靠投放堆出来的数字。当你知道自己的真实增长,外面的声音就没有那么容易动摇你。


其实我挺感激这些股东的。会花三个小时打电话“喷”你的投资人,是真正在乎这家公司的。而且说白了,大家最后看我们在行业的位置,还是要回到横向比较产品,从这个角度看,友商估值的锚定对我们反而是好事。


我们是经历过好几个周期的。从创业到现在,至少经历过元宇宙潮起潮落,又赶上22、23年那一波创投退潮期,所以我们不太会被市场上非常疯狂的情绪裹挟——判断要建立在产品和真实用户上,而不是建立在别人的增长曲线上。


这一点上我们也很幸运,遇到的投资人大多也是这么看的:他们认的不是短期的增长曲线,而是技术路线和长期价值。


06 踩过元宇宙的人不会再追概念, 撕开世界模型的标签


ZP:在你们看来,3D生成和world model之间到底是什么关系?你们会往这个方向走吗?


吴迪:3D生成是world model的必需品,但最大的问题是world model本身还没有明确的定义——是控制机器人的模型,还是生成场景的模型?


我们不把自己定义成世界模型,一个是大家已经审美疲劳了,另一个是我们有自己的想法。我们马上要上线场景级生成,可以算world model,但没有到能模拟世界的程度。


张启煊:另一个我们比较冷静的点是——在元宇宙那一波的时候,包括当时影眸也是做元宇宙的,那时候有一个很大的特点:创业公司会跟着概念去设计产品规划,而不是做的产品刚好fit这个概念。现在世界模型有点像当年的元宇宙。撕开世界模型这个标签,大家本质上做的还是机器人行为策略、实时视频生成、三维场景生成。我们更希望把注意力放在撕开标签后本身的任务定义上。


ZP:场景生成的商业价值和潜力是什么?


张启煊:我们25年拿最佳论文的CAST做的就是场景生成。Object生成完成后,我们往两个方向延伸:往内部走理解部件关系,衍生出BANG;往外部走理解物品间关系,衍生出CAST。


场景级生成需要理解物品间的力学关系、位置关系和使用意义,CAST通过结合语言模型与深度估计模型来实现。过去一年半我们主要在解决多模块级联导致的成功率下降问题,现在已经完成了更多端到端的整合。虚拟场景体验、游戏概念设计、具身智能的仿真环境训练都会直接受益。


07 四篇论文三次最佳提名,没有KPI不打卡——一个DeepSeek式研发组织的生长方式


ZP:你们内部的研发体系会比较像哪一类公司?


张启煊: 跟DeepSeek比较像。在我们这,很多项目都是本科生lead的,他可能之前一个项目经验都没有,我们都会让他去lead一个独立的方向。没有KPI,也不强制加班。


吴迪: 我们到目前为止整个公司都不打卡。


ZP:你们现在是怎么跟AI一起工作和配合的?


张启煊:我们现在大量模块都是auto research出来的,就是让AI自己在那写。因为研发项目很多是传统算法的优化,也有新框架的引入。之前大家大量时间花在传统算法优化上,现在这一块完全用AI agent完成了。


另外之前一个很大困难是怎么优化推理性能和调度性能。之前更厉害的人都在其他模态,3D很难找到人专门做性能优化。AI引入之后,对整体推理性能和成本控制有很大帮助。


吴迪:包括产品开发迭代上线的周期——原来四五个人一个功能可能写一两周,现在可能一两天就能搞定。代码合并、PR、review这些也都用得很深入。如果没有Agent的飞速发展,我们现在肯定得150人以上的团队规模。


ZP:从硕士没毕业就出来创业到现在六年,作为创始人,你们在心态和思考方式上最大的变化是什么?


吴迪:一直都在被教育、被推着成长。我们是没经历过成熟商业化体系、成熟组织体系的人创的业,硕士还没毕业就开始干。每一轮融资虽然都站在了风口末端,但也都没真正赶上风口,所以一直是看上去挺顺、其实没那么顺的状态。


每个阶段考虑的问题都不一样——最开始考虑研发出来的东西怎么和市场结合,接下来考虑钱不够了怎么办,再往后考虑怎么做下一代产品,现在考虑的是怎么把公司的估值和故事抬上去、怎么建设更成熟的组织、怎么吸引更多研发人才、怎么并行推进不同项目。每个阶段对我们的逼迫性成长要求都很大。


张启煊:但从3D生成做出来之后,整个团队更多是主动去成长了。做人脸和元宇宙那会儿确实很多是逼迫性增长,因为刚进这个行业、刚做这家公司,更多是follow——尤其做人脸那阶段是follow海外的先进做法。但现在我们是引领的团队,没法再被动成长了,更多是无人区探索。


ZP:你们都是researcher出身,做着做着变成了要扛商业化的创始人。这个身份转变里,最大的认知颠覆是什么?


吴迪:首先我不算一个传统意义上的researcher。我在上科大是GPA吊车尾的存在,大四GPA只有2.8,研究生是裸考考进去的。上科大80%的人都有保研名额,我是剩下的20%(笑)。大家本科都已经发SCI了,我本科结束一篇都没有,在实验室更多是负责组建和项目管理。不过在上科大待那么多年本身就很有创业感——我进去的时候招生才第二年,整个学校只有一栋宿舍楼能用,很多东西都是一手搭出来的。所以我本来就不是传统researcher的画像。


张启煊:有一个祛魅的过程。最开始你会很崇拜发文章的学长学姐,但真做了公司才发现,学术成就不代表东西靠不靠谱。不追逐文章之后反而进入了良性循环——我们两年三项最佳论文提名,都不是为发而发,都是做了一年研发、在产品里有了突破才写的,所以周期都很长。只有当一个学者没有毕业压力之后,他才会真的去做代表作。还有一件挺有面子的事——我们训模型的同学都知道Blender的渲染节点该怎么接,因为你不调这些东西,根本不知道行业里为什么这个要这么做。从学术实验室迈向做公司,你得把这些东西全转过去。


ZP:如果只留一条,你们各自最重要的心法是什么?


张启煊:我好像没克服过什么心理瓶颈——遇到我觉得搞不定的事,就推给吴迪(笑)。


吴迪:毕竟我还是要为这个公司兜底的。我觉得我最重要的原则,就是敢于承认自己的不足。过去哪里做得不好,就大大方方承认,然后去把它做得更好。没有什么个人偶像包袱。


ZP:你们现在每天花最多时间思考的事情是什么?


吴迪: 两件事。一个是3D接下来该怎么发展,会不会哪天被什么模态干掉。另一个是怎么把公司变成一个能打仗的组织。


张启煊: 我觉得是3D整个应用场景怎么去scale。模型的scaling我们从Gen 2开始已经达成了,整个团队从训练小模型的团队真正变成了训练大模型的团队。但market和product怎么做scaling,依然是我们很重要的课题。


请注意,本次访谈内容已经过编辑整理并已获得影眸科技的认可,仅代表受访者个人观点。欢迎读者通过留言互动,分享您对本访谈或影眸科技的看法。Z Potentials 将继续提供更多关于人工智能、全球化市场、机器人技术等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。


文章来自于"Z Potentials",作者 "Z Potentials"。

关键词: AI新闻 , AI 3D , Hyper3D , 影眸科技
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

5
Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。

项目地址:https://github.com/black-forest-labs/flux

在线使用:https://fluximg.com/zh

6
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales