Z Potentials | 大厂进场3D的这一年，影眸Hyper3D凭什么还是最强3D模型开发者

8143点击 2026-06-23 16:45

2020年，吴迪读研一，张启煊念大三，他们跟同为上海科技大学学生的张龙文、曾初啸一起创办了影眸科技。公司早期做过一系列有关3D与生成的探索——做过穹顶光场扫描，做过二次元APP，做过数字人，踩过元宇宙的尾巴，也经历过几乎没有现金流的至暗时刻。2024年，他们几乎把所有筹码押在一个当时没人做出来过的东西上——原生3D生成大模型Hyper3D Rodin。然而，正是这一赌注，引领了整个行业的主流技术转向。

Rodin Gen-1发布约半年后，影眸科技在2025年的7个月时间里快速完成了2轮千万美元级融资——1月由美团龙珠、字节跳动领投A轮，8月由蓝驰创投领投A+轮。近日，影眸科技宣布完成新一轮数亿元人民币融资。本轮融资由凯辉基金、上海国投先导领投，老股东持续跟投。与此同时，Hyper3D Rodin大模型也迭代到了Gen-2.5。作为全球首个千万面级3D生成模型，Rodin Gen-2.5首次将类大语言模型的“先思考、再生成”运行逻辑引入3D生成领域，并同步推出全球首个12K精度的原生3D贴图模型。

在此之前，影眸已经陆续上线了业内唯一的3D编辑、递归分件技术BANG、以及支持边框盒/体素/点云的3D ControlNet，将3D生成从"抽卡"推进到了可编辑、可控制的生产工作流。

他们是业内唯一连续多年拿到国际图形学顶级会议SIGGRAPH最佳论文及提名的商业公司，其算法团队每2人中就有1人获得或提名最佳论文。他们的研发体系和DeepSeek高度相似：没有KPI，不打卡，本科生直接lead项目。

有意思的是，这样一家公司几乎不为自己吆喝。曾有投资人为此给吴迪打了三个小时电话，催他PR再用力一点，这样增长能再快一点。彼时竞对正以惊人的速度融资、扩张、刷估值。吴迪有时候会焦虑上几天，但穿越过周期的沉淀让他更能守住长期节奏——产品增速可观，留存也领先行业。于是，他依旧该干嘛干嘛——上一轮融资照样没怎么发PR。我们采访前想搜点近期访谈做参考，几乎一无所获。

与外界的节奏相比，他们的另一组数字是这样的：截至目前，他们B端的订单量，超过了同赛道其他公司之和；Rodin Gen-2.5发布后首月，订阅用户与ARR环比增速均超400%；过去一年里，客户没有流失过一个；运营团队只有同行的十分之一；平均每九天上线一个新功能。英伟达CES Keynote的主视觉，用的是他们生成的3D资产；Unity AI接入了他们的引擎；OpenAI首届Codex Hackathon的冠军项目，也选择了Hyper3D。

但吴迪更愿意聊的不是这些光环。他说，为了搞清楚3D打印到底需要什么样的模型，影眸买了一堆打印机自己打；为了适配工业设计，研究员跑去学Rhino和各种CAD软件；训模型的人，都得会接Blender的渲染节点，每一篇技术报告的演示视频都由技术团队使用Blender亲自制作。他觉得3D大模型的壁垒不在基模——可能再过一两年大家都会拉齐基模能力——真正的壁垒藏在这些大厂不愿碰的脏活累活里。影眸科技在近期发布了最新一代模型Hyper3D Rodin Gen-2.5。这是全球首个具备千万面级生成能力的3D大模型，首次将类大语言模型的“先思考、再生成”运行逻辑引入3D生成领域（3D几何生成与贴图生成），同一套模型自适应响应从创意探索到生产交付的全链路需求，将3D生成的可控性推进至全新阶段。

要做到行业领先的可控性并不容易，影眸科技认为他们的优势在于没有“学术惯性”。例如，他们最开始坚持3D原生，不走2D升维；后来研究分件技术，不照搬做分类的方法——总在探索新技术时绕开那条"看起来对"的路。这次访谈里，他们聊了不少平时不太公开说的判断：3D根本不是一个行业；Scaling Law在3D领域撞墙比语言模型更早；3D生成是world model的必需品，但他们不愿蹭“世界模型”的概念。

访谈当天，恰好是影眸科技成立六周年。两个人都还很年轻，却已经完整经历过元宇宙泡沫、融资寒冬和大厂入场的几轮周期。吴迪说，现在不太会被市场上那些疯狂的情绪裹挟了。

以下是他们难得的一次完整对话。

3D不是一个行业，它是不同的分门别类的领域——例如游戏、3D打印、CAD、智能制造。评测这件事在3D领域内很难完成，因为游戏要低面好拓扑，3D打印要超高精度，工业要倒角清晰、硬表面光滑——需求根本不在同一个坐标系里，这也是Rodin Gen-2.5推出5种生成模式的根本原因。
语言模型到现在没有特别出色的垂直模型，但在3D上，各领域的垂直模型特别重要。所以如果一定要跟语言模型比，现在到O1的阶段了——通过不同的thinking实现test-time scaling，而不是继续堆参数。
行业里有公司去年年底做用户统计，用户最想要的功能是我们的3D editing，但事实证明复刻很难。现在是模型即产品，模型上的设计想模仿需要的时间完全不同。
大厂的目标是证明"我技术上必须有这个模态"，但不会针对某个场景做深入适配。3D领域的脏活累活反而是我们和大厂的差异化。
撕开“世界模型”的标签，大家做的还是机器人行为策略、实时视频生成、三维场景生成。现在世界模型有点像当年的元宇宙——创业公司跟着概念设计产品，而不是产品刚好fit概念。
我们团队比较善于摆脱学术惯性。做3D原生的时候学术惯性是2D升维，做分件的时候学术惯性是直接做分类——友商和某大厂后来上线的方案，就是我们试过并放弃了的路径。
只有当一个学者没有毕业压力之后，他才会真的做出代表作。我们两年三项最佳论文提名/获奖，都不是为了发而发，都是做了一年研发、在产品中有了突破才写的。

01 开创3D生成“Thinking”时代：Rodin Gen-2.5 背后的技术选择与取舍

ZP：你们刚刚发布的Rodin Gen-2.5是全球首个千万面级3D生成模型，最快4秒生成百万面，并推出了12K原生贴图。这一代模型和上一代的本质差别在哪？

张启煊：这次最大的特点是我们引入了一个叫Thinking Effort的机制。Gen-2.5 对生成时长的控制是连续的——从4秒到80秒之间平滑可调，并非几个相互割裂的固定模式。为便于使用，产品将这一连续能力归纳为五档Thinking Effort，覆盖从快速草稿到极致精模的不同场景。。这让三维生成模型第一次有了类似大语言模型的"思考"调度能力——针对不同任务难度分配不同的计算量。

比如UGC项目基本会选最快的模式或中等速度模式，25秒左右，是比较合理的响应时间。美术流程要的高精度模型，就可能选80秒雕塑级的。不需要那么多细节的——细节多了美术还要手动抹掉——可能选40秒。

背后是我们对过去一两年整个3D生成行业的观察：很多用户在不同需求下会选择不同供应商的模型。我们想做的就是通过一套机制，让模型自动去fit用户不同的需求。

ZP：这算不算一种过度设计？用户可能不会去研究该选哪个档位，他只想要一个最好的结果。

张启煊：时间其实是这个设计的附加产物，我们真正要解决的不是用户对不同时间的需求，而是对不同模型风格的需求。比如这里有个包，表面有很多小纹路——他是希望这些纹路体现在贴图上，还是在模型表面有这些纹路？不同人有不同需求。如果是做雕塑，可能就希望体现在表面，因为没有贴图；如果最后是要真的去生产这个包，可能就希望体现在贴图上。

怎么去控制这个点？我们发现token长度是一个好的媒介——token越长，它会越倾向于表示更多细节；token越短，它没有这个细节表示能力，自然就不会去表示这些细节。但token长短带来的附加产物就是推理时间的长短。这是一整个逻辑链条。顺便，推理时间更快了还能满足更多UGC的玩法需求。

ZP：这个更新对用户意味着什么？

张启煊：他可以花更少的钱，体验到更多模型的效果。在Rodin Gen-2.5的Medium模式下，用户可以一口气生成10个模型。之前即使是我们这样高度可控的模型，抽卡还是件很烦的事，只能一个个抽。现在生成速度快了之后可以一口气抽10个再选，对我们服务器也不会造成太大压力。

ZP：这个思路和语言模型的思考机制有类似之处，从语言模型做到3D，难度在哪里？

张启煊：语言模型为什么能做到？因为它是next token prediction，token本来就是变长的。但三维生成我们用的是flow matching路线，token大部分情况下是定长的。不过我们在最开始提出CLAY（2024年Rodin Gen-1的核心框架，该技术论文获2024年计算机图形学顶级会议ACM SIGGRAPH的最佳论文提名。）的时候就引入了变长的设计，只是当时引入变长设计只是为了方便训练，没有去探索它更深的价值。这次在Gen2.5里我们更深地探索了它背后的潜在价值，激发了这个能力。据我们所知，之前也没有人做过。

ZP：这一代你们重做了原生贴图（材质）框架。材质这部分在整个3D生成里，处在一个什么位置？

吴迪：直接决定了贴图的可用性。3D生成就两部分，模型和材质。原来AI 3D生成的材质，都只能用来看看。真的要接到生产流程里基本得重做一遍，除非放在边角的位置。我们这一代用了一个全新的框架做材质，难度不亚于完整训练一个图像生成模型，才把材质推到了可用线上。

张启煊：我举个更具象的例子。图像生成里面文字绘制一直是个很难的问题，直到去年下半年才逐步被解决，到现在已经是标配了。我们给3D贴图模型投入了与图像生成同等量级的训练资源，VAE性能甚至超越了Flux 2。

它不仅具备文字绘制的能力，更在12K精度下实现了超越实景扫描的几何精度和材质保真度。例如，你去生成一个人脸，它能够生成到眼角的细小皱纹都能看清楚。我们原来做人脸扫描，这是个相当难的事情，就算拿20多台高精度相机都不一定能拍得那么清晰。

ZP：Gen-2.5算是一个中间版本还是大版本？Gen-3什么时候？

张启煊：中间版本。整数版是全新架构，点五版是在整数版基础上验证新架构。Gen-2.5基座模型用的还是Gen-2。到Gen-3，我们会从零开始用新基座训新架构。版本间隔基本上是6个月，中间每隔2到4个月会发一个小版本。

ZP：预计到哪个大版本的时候，AI 3D就可以直接投产？

吴迪：这个有点难以预期，尤其是3D在不同场景里需求不一样。就以游戏举例，高质量的3A游戏和《蛋仔派对》这样的手游，对模型需求都是不一样的。我觉得Gen-2.5已经带来了一个巨大的人工修改成本下降。

张启煊：其实部分场景已经能直接投产了，比如3D打印，比如《蛋仔派对》——可以认为它在部分游戏行业已经能够投产。

02 游戏要低面，打印要高精，工业要光滑：忘掉"3D行业"这个词，它根本不存在

ZP：启煊之前说过"3D生成大概只到GPT-2的水平"，这句话被广泛引用。过去一年参数上了百亿、原生3D成了共识、大厂全面进场——按你现在的判断框架，现在到GPT几了？

张启煊：我现在感触最深的一点是，它跟GPT的路线还是不一样的。GPT一直到GPT-4是一个重要的飞跃，Scaling Law被验证。但从GPT-4开始大家就质疑Scaling Law有没有碰壁。这件事情在3D上发生得更早——差不多在4B参数左右的时候，我们就开始思考，是不是加更多参数跟更多数据量就能达到更好的效果。我们当时的判断是"不是"，现在看起来有点失误，但核心逻辑是对的：3D跟语言模型相比，不是光靠加参数就能scaling的。

3D的scaling会发生在应用场景上，需要你为各个场景做专用的适配、各种风格的迁移。所以我们在Gen-1.5的时候做了一个专门的RLHF版本，针对不同的模型风格做了不同的后训练，希望它能满足不同行业的需求。它们的发展路线跟语言模型是不同的。

语言模型到现在为止，我们没有看到特别出色的垂直模型——除了Coding，但现在Coding模型跟主模型也已经基本合并了。而在3D上，各个领域的垂直模型是特别重要的。这个点集中体现在我们在Gen 2.5里引入了Thinking Effort。所以如果一定要跟语言模型比的话，现在其实到O1的那个阶段了，大家通过不同的thinking能够实现test-time的scaling。

ZP：你刚才纠正了一个前提——3D不是一个行业。能展开说说这个判断吗？

吴迪：这是我们非常和其他家不一样的想法。3D是由不同的下游场景构成的，就像大语言模型可以用在Coding、法律各种东西里面一样，3D的下游可能有游戏、3D打印、CAD产品设计、智能制造。所以3D不是一个领域，它是不同的分门别类的领域。这是所有人对3D的一个误区。

评测是很难做的，大家现在看3D模型好不好，最多看细节量大不大，能不能把皮肤褶皱表达出来。但不同垂直场景里需求不同。比如3D打印——尤其是光固化——确实需要高精度，把细节全部体现在模型上。但游戏反而需要更低面、拓扑更好的模型，加上比较好的材质。工业需要的是倒角清晰、硬表面光滑。图像和视频的消费级模态已经非常清晰了，但3D并不是这样。

ZP：3D生成在学术圈的生态现在是什么状况？

张启煊：有一个比较欣喜的事情。你会发现在大语言模型实现突飞猛进、头部主流厂商都选择闭源之后，整个学术圈对语言模型的突破性研究越来越少。图像生成领域现在是开源厂商主导的，学术圈开源的图像工作依然很活跃。3D生成介于两者之间——顶级模型现在都是闭源的，包括我们和友商的各种商业模型——但这并没有让3D的开源和学术研究生态受到很大影响。过去一年，大量的3D生成工作依然在学术圈有很大的号召力和吸引力，今年刚结束的CVPR最佳学生论文就颁发给了3D生成领域的开源之王TRELLIS.2。

一个有意思的巧合是，TRELLIS.2之前我们CLAY也拿了应该是3D生成第一个Best Paper提名，跟TRELLIS.2拿Best Paper的刚好在同个地点——都是在丹佛举办的CVPR和SIGGRAPH，同一个会议厅。3D生成依然是一个开放的生态。

03 “可控性”是这家公司最执拗的信仰

ZP：影眸这两年密集推出了BANG分件、3D ControlNet、自然语言编辑、局部重做。这套可控性体系背后有没有一以贯之的思路？又是怎么排优先级的？

张启煊：优先级很简单，先做简单的。如果这个东西只需要对数据进行一些编排，那我们就探索性地去做。比如分件，我们做了一年半——第一年浪费在错误的方向上，然后花了两个月实现了一个特别的技术突破，又花了四个月把它巩固到最新的基座模型上。

吴迪：分件这件事花了很多精力。因为“分件”实在是太明确的需求——建模这个事就离不开分件，不分件的模型就很难用。所以我们一开始就开始做。但第一想法——就像当年大家做3D先用2D升维一样——肯定是先聚类，先判断物体上某些点属于哪个part，再做分割。但这条路径我们迭代了很久，一直都是错的。直到一个新的技术路径被想出来，才到了可用的状态。但我们不会急着让它以不可用的状态上线。

张启煊：所以我们其实不是第一个上线分件功能的。但我们上线的时候，业内已经上线的分件方案就是我们pass掉的方案，因为效果对我们来说不够。

ZP：你们的灵光一现——"Understanding by Generating"这个思路，为什么是你们想到的而不是别的团队？

吴迪：我觉得只能归纳为我们对底层模型、底层架构更加了解。

张启煊：我觉得是我们团队本身比较善于摆脱学术惯性。现在大部分方向都有很强的学术惯性，比如做3D原生生成的时候学术惯性是2D升维，做分件的时候学术惯性是直接做理解、做分类。我们现在的editing还有很多后面新的东西，都是在这个"Understanding by Generating"的框架下进行的。

ZP：3D编辑功能上线后，对用户工作流有什么根本性的改变？

张启煊：我们今年年初最大的工作流变化是编辑。Nano Banana很火，它重新定义了图像领域的路线。我们的3D编辑逻辑相同，拖入任何一个3D模型，用文本直接改。

之前是AI生成模型、人去修，很累。现在自己做个模型丢给AI改。有个用户做了一个马年的玩偶，老板要求改成龙头——丢进我们的工具，说"把头变成龙"，直接就改好了。

工作流反过来了：原来先AI再人，现在先人再AI也行了。而且任何第三方平台生成的模型也可以拿到我们这来编辑，不要求是我们平台生成的。

ZP：你们辛苦趟出来的方向，是不是很快就被别人抄走了？这种事你们怎么看？

张启煊： 确实存在像素级复刻我们产品的情况，UI连提示都设计得一模一样，有些功能——像我们的DCC Bridge——连小窗设计各种都做得一模一样。

但这些产品上的设计确实门槛很低。现在是模型即产品，模型上的设计他们想要学习和模仿需要更多的时间。举个例子，我们的3D ControlNet可以在生成前实现长宽高跟大体外形的控制，但到目前为止，几乎没有业内同行可以复刻。

行业也有玩家在去年年底做用户统计，统计出来他们用户最想要的功能是我们的3D editing。但过去快半年了，他们也还没有顺利做出这个功能。所以在模型层面的设计上，这个事情是需要更多时间才能攻克的。

ZP：面对这么多需求，你们是"看准了再动手"，还是所有方向都同时往前推？怎么判断一件事该现在做还是先放一放？

张启煊： 我们对行业的需求一直比较敏锐，甚至很多后面才解决的问题，其实第一天就知道它存在。但我们并不是对所有问题都一直有解法。有些灵感来自开源社区跟学术社区的新进展，有些甚至来自其他模态。比如Gen-2的时候一个很重要的变化是我们从标准的Diffusion Transformer变成了flow matching，这个明显是在其他模态上得到了验证。一般如果一条路线我们觉得可行就会立刻去做；如果不行就再想想，所以更多时间其实花在思考跟实验上。

吴迪：我们会对一个产品没有达到可用就deliver出来这件事有非常大的反感。

张启煊： 对。基本上你看到一个功能上线了，我们内部会认为它已经是能满足部分行业需求的状态了。

我们现在内部统计，每9天就会上线一个新的feature。模型的更新频率差不多是2到4个月，整个迭代节奏确实非常快。

吴迪：而且随着组织和团队的扩大，包括agent的不断加入，这个速度会越来越快。

ZP：今年SIGGRAPH上你们有6项工作入选，能挑几个重点方向讲讲吗？

张启煊：跟我们整个团队关注的方向都息息相关，有几篇我要特别介绍。

第一个是CAD生成。现在大家做的3D生成更多是娱乐向的，CAD是直接跟工业生产相关的。我们希望未来3D生成除了在娱乐向的内容上展现价值，还能在智能制造、工业设计这些更深的领域发挥作用，真正提供生产级的能力。

第二个是low poly生成，这是现在3D生成在游戏行业应用面临的巨大问题。我们的Gen 2.5提供了雕塑级的千万面模型，但游戏里要的是性能跟质量并存的均衡模型，往往用low poly表示。但low poly的生成用我们之前flow matching的技术框架往往没有办法完成，所以我们用了auto regressive——更像GPT的方式——去逐个生成面片，这是一条新的技术路线，对团队也是一次新的探索。相关成果的升级版本在我们平台上也可以用到了。

然后还有一项不得不提，但它不在六项之内。我们一共投了8篇，其中有一篇被拒了——是一个三维原生的贴图模型。3D生成我们完成了一次从二维升维到三维原生的技术转变，让它成为了技术主流。但在贴图生成上，之前都还是拿二维升维的方式——生成多角度图像然后投影。我们这次完成的就是三维原生的贴图框架。遗憾的是它被拒了，但我们相信每一篇神作都会有被拒绝的日子——NeRF被拒了一次，Yann LeCun有好多文章被拒了。这可能让这篇文章有成为神作的潜质，需要更多时间检验它的价值。

04 六十人团队，九天一个功能，客户除了倒闭没有流失——一种不靠烧钱的增长节奏

ZP：好像每个公司都能拿出惊艳的Demo，影眸实际的商业化进展如何？

吴迪：商业化路径比较脚踏实地。今年会比去年更激进，包括投放、marketing。但近两三年——除非看到非常大的变化——核心群体定位在B端专业化使用场景。

3D还不是一个C端的模态。C端用户拿到3D模型不知道干嘛。带来变化的可能是VR/AR，是3D打印普及，但这个预期不在我们这一边。

张启煊：我们认同现阶段要占品牌心智——说到3D就得想到Hyper3D、Rodin。但希望更高效地达成，而不是每个月投几百万的流量费。

吴迪：我们客户留存很好——过去一年里，除了倒闭的，没有流失。底层模型稳稳在第一梯队，edit、材质、可控性这些独占功能越来越多。

张启煊：我们的产品和定价策略筛选出来的大部分都是专业用户，甚至是准B端，粘性比投流找来的高很多。2.5上线后开始投放，增长很惊人，留存没有变化。

ZP：方便透露下商业化进展吗？

张启煊：据我们所知，我们B端的订单量跟订单金额，比另外两家头部加起来还多。

去年CES上黄仁勋Keynote主页最大的那张图，背后就是用我们生成的模型。OpenAI首届Codex Hackathon，冠军项目用Rodin做的。顶级游戏引擎方面，Unity AI接了两家3D生成模型，一家来自某大厂，另一家就是我们。也和网易蛋仔派对、拓竹等有深度合作。

ZP：有一种担心是，3D生成现在的付费需求集中在几个垂直场景，天花板可能没有想象中高。你们自己算过这笔账吗？

吴迪： 分短期和长期看。短期3到5年内，专业3D就是我们场景的天花板，这个天花板其实不低。全球百万数量级的建模师，Autodesk一年大几十亿美金的营收都集中在3D领域，游戏每年要花一两百亿美金在外包建模上。从专业化使用场景来说，至少是一个500到1000亿美金的市场。

张启煊：但我们现在模型能力探索的即使是专业化场景也比较局限，更多驻在娱乐向的内容探索上——游戏、影视的3D模型，3D打印现在也很多是for fun。但3D领域很大的一个前景是生产和工业向的——汽车的外形、充电宝的外形，甚至医学上用的模型。我们希望未来3D生成在这些行业也能发挥作用，这起码是现在两倍以上的市场。

吴迪： 再往后到3D打印和AR/VR真正普及到个人C端，3D生成就会变成一个底层框架，就像现在手机拍照一样。

张启煊：而且现在大家对3D的重视程度也在提升，刚结束的WWDC上苹果也在它的Foundation Model里内置了三维生成模型。

05 与大厂的差异化藏在他们很难深入的脏活累活里

ZP：过去一年，腾讯混元、阿里、字节都密集推出了自己的3D生成模型，大厂几乎全面进场。这一年它们改变了什么？又有什么是它们没能改变的？

吴迪：改变的可能是大家对这个行业的关注度。但没有改变创业公司仍然是最强模型开发者的局面。

ZP：那你们跟大厂打的是同一仗吗？

吴迪：大厂的使命和我们的使命不一样，他在AI里面需要站到的角色位置和我们要站到的角色定位也不一样，所以是比较差异化的。3D正因为它在不同应用场景里有不同的模型需求和脏活累活要做，这反而能构成和大厂的差异化。大厂的目标主要是得证明"我技术上必须有这个模态"，但他不会去做太多针对某个场景非常深入的适配。

ZP：大厂会走免费开放甚至完全开源的策略吗？

张启煊：没发现。腾讯一度开源过，但现在主流模型也不开源了。

ZP：每次看到竞对估值翻得很快的时候，你们内心活动是什么？

吴迪：至少可以翻到百分之六七十的估值，那对我没有影响，而且我花费也是他们的百分之六七十，所以约等于多了30%的空间。

ZP：会因此感觉到投资人的压力吗？

吴迪：会。之前有股东给我打了三个小时电话，“喷”我们增长不够快、PR不够用力。确实有的时候会有压力，有时候心里也会因为这些事焦虑几天睡不着觉。

但后来慢慢就不焦虑了。一方面，我们的增长其实在变得越来越快，更重要的是，我们的留存远比其他家好——产品确实solid，过来的也都是真实用户，不是靠投放堆出来的数字。当你知道自己的真实增长，外面的声音就没有那么容易动摇你。

其实我挺感激这些股东的。会花三个小时打电话“喷”你的投资人，是真正在乎这家公司的。而且说白了，大家最后看我们在行业的位置，还是要回到横向比较产品，从这个角度看，友商估值的锚定对我们反而是好事。

我们是经历过好几个周期的。从创业到现在，至少经历过元宇宙潮起潮落，又赶上22、23年那一波创投退潮期，所以我们不太会被市场上非常疯狂的情绪裹挟——判断要建立在产品和真实用户上，而不是建立在别人的增长曲线上。

这一点上我们也很幸运，遇到的投资人大多也是这么看的：他们认的不是短期的增长曲线，而是技术路线和长期价值。

06 踩过元宇宙的人不会再追概念，撕开世界模型的标签

ZP：在你们看来，3D生成和world model之间到底是什么关系？你们会往这个方向走吗？

吴迪：3D生成是world model的必需品，但最大的问题是world model本身还没有明确的定义——是控制机器人的模型，还是生成场景的模型？

我们不把自己定义成世界模型，一个是大家已经审美疲劳了，另一个是我们有自己的想法。我们马上要上线场景级生成，可以算world model，但没有到能模拟世界的程度。

张启煊：另一个我们比较冷静的点是——在元宇宙那一波的时候，包括当时影眸也是做元宇宙的，那时候有一个很大的特点：创业公司会跟着概念去设计产品规划，而不是做的产品刚好fit这个概念。现在世界模型有点像当年的元宇宙。撕开世界模型这个标签，大家本质上做的还是机器人行为策略、实时视频生成、三维场景生成。我们更希望把注意力放在撕开标签后本身的任务定义上。

ZP：场景生成的商业价值和潜力是什么?

张启煊：我们25年拿最佳论文的CAST做的就是场景生成。Object生成完成后，我们往两个方向延伸：往内部走理解部件关系，衍生出BANG；往外部走理解物品间关系，衍生出CAST。

场景级生成需要理解物品间的力学关系、位置关系和使用意义，CAST通过结合语言模型与深度估计模型来实现。过去一年半我们主要在解决多模块级联导致的成功率下降问题，现在已经完成了更多端到端的整合。虚拟场景体验、游戏概念设计、具身智能的仿真环境训练都会直接受益。

07 四篇论文三次最佳提名，没有KPI不打卡——一个DeepSeek式研发组织的生长方式

ZP：你们内部的研发体系会比较像哪一类公司？

张启煊： 跟DeepSeek比较像。在我们这，很多项目都是本科生lead的，他可能之前一个项目经验都没有，我们都会让他去lead一个独立的方向。没有KPI，也不强制加班。

吴迪： 我们到目前为止整个公司都不打卡。

ZP：你们现在是怎么跟AI一起工作和配合的？

张启煊：我们现在大量模块都是auto research出来的，就是让AI自己在那写。因为研发项目很多是传统算法的优化，也有新框架的引入。之前大家大量时间花在传统算法优化上，现在这一块完全用AI agent完成了。

另外之前一个很大困难是怎么优化推理性能和调度性能。之前更厉害的人都在其他模态，3D很难找到人专门做性能优化。AI引入之后，对整体推理性能和成本控制有很大帮助。

吴迪：包括产品开发迭代上线的周期——原来四五个人一个功能可能写一两周，现在可能一两天就能搞定。代码合并、PR、review这些也都用得很深入。如果没有Agent的飞速发展，我们现在肯定得150人以上的团队规模。

ZP：从硕士没毕业就出来创业到现在六年，作为创始人，你们在心态和思考方式上最大的变化是什么？

吴迪：一直都在被教育、被推着成长。我们是没经历过成熟商业化体系、成熟组织体系的人创的业，硕士还没毕业就开始干。每一轮融资虽然都站在了风口末端，但也都没真正赶上风口，所以一直是看上去挺顺、其实没那么顺的状态。

每个阶段考虑的问题都不一样——最开始考虑研发出来的东西怎么和市场结合，接下来考虑钱不够了怎么办，再往后考虑怎么做下一代产品，现在考虑的是怎么把公司的估值和故事抬上去、怎么建设更成熟的组织、怎么吸引更多研发人才、怎么并行推进不同项目。每个阶段对我们的逼迫性成长要求都很大。

张启煊：但从3D生成做出来之后，整个团队更多是主动去成长了。做人脸和元宇宙那会儿确实很多是逼迫性增长，因为刚进这个行业、刚做这家公司，更多是follow——尤其做人脸那阶段是follow海外的先进做法。但现在我们是引领的团队，没法再被动成长了，更多是无人区探索。

ZP：你们都是researcher出身，做着做着变成了要扛商业化的创始人。这个身份转变里，最大的认知颠覆是什么？

吴迪：首先我不算一个传统意义上的researcher。我在上科大是GPA吊车尾的存在，大四GPA只有2.8，研究生是裸考考进去的。上科大80%的人都有保研名额，我是剩下的20%（笑）。大家本科都已经发SCI了，我本科结束一篇都没有，在实验室更多是负责组建和项目管理。不过在上科大待那么多年本身就很有创业感——我进去的时候招生才第二年，整个学校只有一栋宿舍楼能用，很多东西都是一手搭出来的。所以我本来就不是传统researcher的画像。

张启煊：有一个祛魅的过程。最开始你会很崇拜发文章的学长学姐，但真做了公司才发现，学术成就不代表东西靠不靠谱。不追逐文章之后反而进入了良性循环——我们两年三项最佳论文提名，都不是为发而发，都是做了一年研发、在产品里有了突破才写的，所以周期都很长。只有当一个学者没有毕业压力之后，他才会真的去做代表作。还有一件挺有面子的事——我们训模型的同学都知道Blender的渲染节点该怎么接，因为你不调这些东西，根本不知道行业里为什么这个要这么做。从学术实验室迈向做公司，你得把这些东西全转过去。

ZP：如果只留一条，你们各自最重要的心法是什么？

张启煊：我好像没克服过什么心理瓶颈——遇到我觉得搞不定的事，就推给吴迪（笑）。

吴迪：毕竟我还是要为这个公司兜底的。我觉得我最重要的原则，就是敢于承认自己的不足。过去哪里做得不好，就大大方方承认，然后去把它做得更好。没有什么个人偶像包袱。

ZP：你们现在每天花最多时间思考的事情是什么？

吴迪：两件事。一个是3D接下来该怎么发展，会不会哪天被什么模态干掉。另一个是怎么把公司变成一个能打仗的组织。

张启煊：我觉得是3D整个应用场景怎么去scale。模型的scaling我们从Gen 2开始已经达成了，整个团队从训练小模型的团队真正变成了训练大模型的团队。但market和product怎么做scaling，依然是我们很重要的课题。

请注意，本次访谈内容已经过编辑整理并已获得影眸科技的认可，仅代表受访者个人观点。欢迎读者通过留言互动，分享您对本访谈或影眸科技的看法。Z Potentials 将继续提供更多关于人工智能、全球化市场、机器人技术等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群，与我们共同分享、学习、成长。

文章来自于"Z Potentials"，作者 "Z Potentials"。

关键词: AI新闻 , AI 3D , Hyper3D , 影眸科技

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI 3D建模

【开源免费】LGM是一个AI建模的项目，它可以将你上传的平面图片，变成一个3D的模型。
项目地址：https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用：https://replicate.com/camenduru/lgm

Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目，该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目，效果堪比midjourney。
项目地址：https://github.com/black-forest-labs/flux
在线使用：https://fluximg.com/zh

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales

Z Potentials | 大厂进场3D的这一年，影眸Hyper3D凭什么还是最强3D模型开发者

01 开创3D生成“Thinking”时代：Rodin Gen-2.5 背后的技术选择与取舍

ZP：你们刚刚发布的Rodin Gen-2.5是全球首个千万面级3D生成模型，最快4秒生成百万面，并推出了12K原生贴图。这一代模型和上一代的本质差别在哪？

ZP：这算不算一种过度设计？用户可能不会去研究该选哪个档位，他只想要一个最好的结果。

ZP：这个更新对用户意味着什么？

ZP：这个思路和语言模型的思考机制有类似之处，从语言模型做到3D，难度在哪里？

ZP：这一代你们重做了原生贴图（材质）框架。材质这部分在整个3D生成里，处在一个什么位置？

ZP：Gen-2.5算是一个中间版本还是大版本？Gen-3什么时候？

ZP：预计到哪个大版本的时候，AI 3D就可以直接投产？

02 游戏要低面，打印要高精，工业要光滑：忘掉"3D行业"这个词，它根本不存在

ZP：启煊之前说过"3D生成大概只到GPT-2的水平"，这句话被广泛引用。过去一年参数上了百亿、原生3D成了共识、大厂全面进场——按你现在的判断框架，现在到GPT几了？

ZP：你刚才纠正了一个前提——3D不是一个行业。能展开说说这个判断吗？

ZP：3D生成在学术圈的生态现在是什么状况？

03 “可控性”是这家公司最执拗的信仰

ZP：影眸这两年密集推出了BANG分件、3D ControlNet、自然语言编辑、局部重做。这套可控性体系背后有没有一以贯之的思路？又是怎么排优先级的？

ZP：你们的灵光一现——"Understanding by Generating"这个思路，为什么是你们想到的而不是别的团队？

ZP：3D编辑功能上线后，对用户工作流有什么根本性的改变？

ZP：你们辛苦趟出来的方向，是不是很快就被别人抄走了？这种事你们怎么看？

ZP：面对这么多需求，你们是"看准了再动手"，还是所有方向都同时往前推？怎么判断一件事该现在做还是先放一放？

ZP：今年SIGGRAPH上你们有6项工作入选，能挑几个重点方向讲讲吗？

04 六十人团队，九天一个功能，客户除了倒闭没有流失——一种不靠烧钱的增长节奏

ZP：好像每个公司都能拿出惊艳的Demo，影眸实际的商业化进展如何？

ZP：方便透露下商业化进展吗？

ZP：有一种担心是，3D生成现在的付费需求集中在几个垂直场景，天花板可能没有想象中高。你们自己算过这笔账吗？

05 与大厂的差异化藏在他们很难深入的脏活累活里

ZP：过去一年，腾讯混元、阿里、字节都密集推出了自己的3D生成模型，大厂几乎全面进场。这一年它们改变了什么？又有什么是它们没能改变的？

ZP：那你们跟大厂打的是同一仗吗？

ZP：大厂会走免费开放甚至完全开源的策略吗？

ZP：每次看到竞对估值翻得很快的时候，你们内心活动是什么？

ZP：会因此感觉到投资人的压力吗？

06 踩过元宇宙的人不会再追概念， 撕开世界模型的标签

ZP：在你们看来，3D生成和world model之间到底是什么关系？你们会往这个方向走吗？

ZP：场景生成的商业价值和潜力是什么?

07 四篇论文三次最佳提名，没有KPI不打卡——一个DeepSeek式研发组织的生长方式

ZP：你们内部的研发体系会比较像哪一类公司？

ZP：你们现在是怎么跟AI一起工作和配合的？

ZP：从硕士没毕业就出来创业到现在六年，作为创始人，你们在心态和思考方式上最大的变化是什么？

ZP：你们都是researcher出身，做着做着变成了要扛商业化的创始人。这个身份转变里，最大的认知颠覆是什么？

ZP：如果只留一条，你们各自最重要的心法是什么？

ZP：你们现在每天花最多时间思考的事情是什么？

06 踩过元宇宙的人不会再追概念，撕开世界模型的标签