推理时代降临:中国AI基础设施的生态博弈

张烽

2026[[ $t('article.detail.demo_date') ]] · 18 [[ $t('article.detail.read') ]]

推理时代降临:中国AI基础设施的生态博弈

一、谁先降低推理成本谁就是赢家

2026年4月,中国AI行业同时传来三条重磅消息:国内首家估值超百亿的纯推理GPU独角兽曦望正式浮出水面,并凭借10亿元单笔融资成为年内该赛道最大赢家;优必选发布Thinker Cosmos开发者平台,试图为人形机器人构建类似Android的生态底座;PPIO模型服务平台首批上线DeepSeek-V4预览版,将百万级长上下文能力推向开源社区。三件事看似分属芯片、机器人和模型服务三个赛道,却指向同一个核心命题——AI从训练走向推理的拐点已经到来,而“推理成本”正成为决定商业胜负的终极杠杆。


为什么是现在?一个直观的背景是,DeepSeek-V4在2026年4月24日正式开源,其1.6万亿参数(Pro版)与284B参数(Flash版)的双轨设计,配合百万字超长上下文,使得Agent能力和世界知识推理性能跃升至国内与开源领域的领先水平。

然而,参数量的膨胀意味着推理端算力需求呈指数级增长。当训练端的算力竞赛逐渐饱和,推理端的效率革命便成为下一个兵家必争之地。曦望联席CEO王湛在专访中直言:“谁的推理成本更低,谁就是赢家。”这句宣言不仅定义了曦望的生存逻辑,也点破了当前AI产业链各环节面临的共同考题——如何在不牺牲性能的前提下,将单位推理成本压至可商业化的临界点。

二、三大支点支撑AI推理生态价值链

将三个热点事件逐一拆解,我们可以清晰地看到AI推理生态中三个关键环节的业务模式差异。

曦望的定位是“纯推理GPU供应商”。与英伟达、华为昇腾等既覆盖训练又覆盖推理的通用GPU不同,曦望从设计之初就舍弃了训练所需的庞大矩阵运算单元,转而专门优化推理任务中的小批量、低延迟、高并发场景。其业务模式类似于ARM在移动芯片领域的“授权+定制”逻辑:面向云厂商、运营商和大型AI应用企业,提供核⼼IP授权或SoC级芯片解决方案,而非直接销售整卡。这种模式的好处在于,下游客户可以根据自身业务流量灵活配置算力,而曦望则通过窄赛道的极致优化获得成本优势。

PPIO的业务模式则更偏向“模型即服务”(MaaS)的中台逻辑。作为云与边缘计算平台,PPIO在2025年初DeepSeek-V3发布后一周内便完成了全系列模型上线,并在此次V4预览版中率先实现百万上下文开箱即用。其核心价值在于降低了企业对大模型的接入门槛——开发者无需自建推理集群,只需要通过API调用,即可享受持续更新的模型能力。截至目前,PPIO模型服务平台已累计上线超百款国内主流开源模型,覆盖文本、图像、视频等多模态任务。这一模式本质上是对传统云服务商“算力+模型”双轮驱动的微调,以模型生态聚拢用户,再通过算力调度实现盈利。

优必选的Thinker Cosmos则试图定义机器人领域的“开发者生态”。从公开信息看,该平台为人形机器人提供底层操作系统、应用框架和模型市场[S6]。虽然目前细节披露有限(本次分析存在引用不充分的风险),但可以推测其业务模式与Android或HarmonyOS类似:通过免费开放基础平台吸引开发者和合作伙伴,再通过应用商店分成、硬件适配认证和增值服务获取收入。唯一的区别在于,机器人平台的“应用”是物理世界的交互逻辑,如抓取、行走、导航,而非屏幕上的图标点击——这决定了其商业模式的成功高度依赖于机器人在工业和家庭场景中的渗透率。

三、成本结构可能决定可持续性分水岭

三个企业的盈利模式各有侧重,但底层都绕不开一个核心变量——推理成本的摊销方式。

曦望的盈利逻辑极其清晰:既然纯推理GPU可以做到比通用GPU更低的单位成本,那么其客户(云厂商或大型企业)就能以更低的价格提供推理服务,从而获得更高的市场份额。曦望本身则通过IP授权费或芯片销售来获利,本质上是“效率溢价”。据S1报道,其10亿元融资主要用于下一代架构的研发和量产,这意味着短期内曦望仍处于高投入期,盈利拐点取决于客户量的爬坡速度。一个隐忧是,若下游市场需求不及预期或竞争对手推出异构推理架构,曦望的成本优势窗口期可能会被压缩。

PPIO的盈利模式更为传统:API调用费 + 边缘节点算力租赁。其上线DeepSeek-V4预览版的行为,本质上是用头部模型作为引流工具,再通过后续的算力消耗、增值服务(如模型微调、安全审核)产生持续收益。这种模式的长板在于,用户粘性边际提升,因为一旦企业基于某个模型部署了生产环境,迁移成本会很高;短板则来自模型开源社区的自部署冲动——当企业足够大时,可能选择自建推理集群以降低成本。

优必选的盈利模式则尚处探索期。从行业惯例看,开发者平台通常先“烧钱”养生态,再通过机器人硬件出货量的放大实现软件价值。如果Thinker Cosmos能成功聚集一批高质量的应用开发者,那么未来优必选可以:(1)向开发者收取应用商店佣金;(2)为企业客户提供定制化智能体解决方案;(3)通过模型市场抽取交易分成。但这一切的前提是,人形机器人本身的硬件成本和稳定性必须突破临界点——否则开发者再多,也无法转化为实际收入。

四、窄赛道、快部署与强社区的不同护城河

三个玩家各自拥有难以复制的结构性优势。

曦望的核心优势在于“路径选择上的极致聚焦”。当行业普遍追求训练与推理“一把抓”的通用芯片时,曦望主动弃权训练市场,将全部研发资源投入推理场景的精调。这种“主动窄化”带来的好处是:芯片面积更小、功耗更低、单位算力成本显著下降。据S1报道,曦望已在内部演示中实现了对标英伟达A100的推理性能,但功耗仅为后者的三分之一。如果这一数据经得起第三方测试,那么曦望将具备在推理领域颠覆成本曲线的潜力。

PPIO的优势在于“模型部署的加速度”。DeepSeek-V4预览版发布后,PPIO几乎是第一时间完成上线,这种快速反应能力既源于其边缘基础设施的广泛覆盖,也源于其团队对开源模型生态的深耕。S7报道指出,PPIO在V3/R1发布后一周内便完成全系列模型上线,这种“时间差”优势对于追求热点的开发者而言至关重要。当竞争对手还在调试环境时,PPIO已经提供了开箱即用的API,用户习惯一旦形成,迁移成本便会形成护城河。

优必选的竞争壁垒则在于“社区的先发占位”。人形机器人目前还处于早期市场,谁能率先打造一个足够活跃的开发者生态,谁就更有可能定义行业标准。Thinker Cosmos虽然细节不多,但其“从硬件到底层OS再到应用层”的全栈思路,类似苹果的封闭生态或安卓的开放生态,有望形成一种“机器人领域的App Store”。此外,优必选已在人形机器人硬件上积累多年,这种软硬结合的能力为平台上开发者的应用落地提供了物理载体,这是纯粹软件平台难以比拟的。

五、国内生态与国际巨头的差异化生存

将三个玩家放入更大的竞争坐标系中,可以看清它们的差异化定位。

在推理GPU领域,曦望的直接对标品是英伟达的T4、L4系列以及华为的昇腾推理卡。英伟达的优势在于CUDA生态和庞大的开发者基础,但其推理芯片并不独立于训练架构,导致单位成本较高;华为昇腾受制于产能限制和软件生态成熟度。曦望作为纯推理新锐,其机会在于“没有历史包袱”,可以围绕推理场景全新设计架构。但风险同样明显:无论曦望的技术多先进,都无法绕开英伟达的CUDA生态——如果客户无法将现有模型方便地迁移到曦望平台,那么成本优势将难以兑现。

PPIO面对的竞争对手主要是各大云厂商的模型服务(如阿里云PAI、华为云ModelArts)以及专业MaaS平台(如Together AI、Anyscale)。相比云厂商,PPIO的优势是“中立性”和“边缘计算能力”;相比国际平台,PPIO的优势是“本地化合规”和“对国产模型的快速适配”。尤其是在DeepSeek-V4这类国产模型上,PPIO的响应速度往往快于来自美国的基础设施提供商,这对于政策敏感型的企业客户具有吸引力。

优必选的竞品包括特斯拉的Optimus、波士顿动力的Spot以及国内的宇树科技、小米CyberOne等。区别在于,优必选是少数明确将“开发者生态”提升到战略高度的机器人公司。特斯拉的Optimus虽然也开放了部分SDK,但其核心逻辑仍是软硬件一体化;而Thinker Cosmos试图吸引第三方开发者,走的是平台化路线。若成功,优必选可能成为机器人界的“微软+英伟达”——既提供操作系统,又提供算力支撑。

六、资本热捧背后的三重隐忧

尽管三家企业在各自赛道均取得突破,但冷静审视,当下仍有多个亟待解决的问题。

第一,市场天花板的不确定性。 推理GPU市场目前仍高度依赖大模型厂商的需求,而大模型本身还处在快速迭代阶段。当前DeepSeek-V4等模型参数量已经达到万亿级别,但未来是否会迎来“压缩革命”(如通过蒸馏、量化将模型缩小到消费级算力可运行),将直接影响推理专用芯片的需求量。如果模型尺寸在未来两年内大幅缩小,那么通用GPU或许就能胜任推理任务,曦望的差异化优势将迅速消失。此外,加密资产挖矿对算力的需求曾一度推高通用GPU价格,如今虽已退潮,但若市场情绪再起波动,也可能间接影响推理GPU的成本曲线。

第二,生态依赖与路径锁定。 PPIO虽然率先上线DeepSeek-V4,但其成功高度绑定开源模型社区的活跃度。一旦DeepSeek等核心贡献者转向闭源,或推出自有推理平台,PPIO的模型服务将面临断供风险。同样,优必选的开发者生态若不能快速突破“鸡生蛋”困境——缺乏硬件出货量则开发者不进驻,缺乏应用则硬件不好卖——就很难跨越早期市场的死亡鸿沟。

第三,核心数据的验证缺失。 我们需要审慎对待一些表述。例如,曦望的“功耗为A100三分之一”目前仅为官方宣称,未经第三方基准测试验证;DeepSeek-V4的“国内与开源领域领先”虽有多家媒体报道支撑,但并未提供与GPT-5、Gemini 3等国际顶尖模型的横向对比数据。在企业决策中,过度依赖未经验证的性能指标可能导致战略误判。

七、芯片出口管制、数据安全与开源模型的法律问题

AI基础设施的合规问题正在成为悬在企业头上的达摩克利斯之剑。

首先是芯片出口管制与供应链安全。曦望如果使用FinFET或GAAFET工艺流片,必须依赖台积电、三星或中芯国际的先进制程。当前美国对中国半导体行业的出口限制仍在升级,若未来进一步收紧涉及“推理专用芯片”的许可证范围,曦望的量产计划可能受阻。此外,曦望的IP可能涉及境外EDA工具,供应链“去风险”成本不容忽视。

其次是数据安全与模型治理。PPIO上线DeepSeek-V4预览版后,用户通过API提交的数据如何脱敏、存储和销毁?根据《生成式人工智能服务管理暂行办法》,大模型服务提供者须对输入输出内容进行安全审核。PPIO作为MaaS平台,需承担内容安全的主体责任,这可能导致额外运营成本。

最后是开源模型的合规使用。DeepSeek-V4基于MIT或类似宽松许可证开源,但企业用户仍需注意:模型训练数据中是否包含未经授权的版权内容?如果未来有第三方向模型开发者发起侵权诉讼,下游API调用方是否会被追责?目前国内法律对此尚无明确判例,属于灰色地带。此外,优必选的Thinker Cosmos若收集大量机器人交互数据,还可能面临《个人信息保护法》下的“人脸信息”和“生物特征”合规审查。

值得一提的是,量子科技的发展虽然尚处早期,但其对现有密码学体系的潜在冲击可能间接影响AI行业的加密资产交易和模型权属保护。当前阶段,这并非紧迫风险,但长期应纳入企业战略视野。

八、推理成本持续下降驱动三大趋势:生态优先?

综合来看,未来两年中国AI推理生态将呈现三大趋势。

趋势一:推理成本将从“3~5元/百万token”区间向“1元以下”突破。 随着曦望等专用芯片的量产,以及模型压缩技术的成熟,推理成本有望实现数量级下降。这将催生大量之前因成本过高而无法落地的应用,如自动驾驶实时决策、工业视觉质检、个性化教育Agent等。企业应提前布局“推理即服务”的采买模式,而不是全部自建GPU集群。

趋势二:开源模型将主导中小型企业市场,但头部厂商仍倾向混合部署。 DeepSeek-V4的成功证明开源能够显著降低模型获取成本。预计未来两年,七成以上AI应用将基于开源模型二次开发,但金融、医疗等强监管行业仍会保留私有化部署,这为PPIO这类MaaS平台提供了中长期的增长空间。

趋势三:人形机器人将从“展示品”变成“可编程终端”。 优必选Thinker Cosmos若能成功聚集超过5万名开发者,就可能进入生态自增长的良性循环。建议优必选参考安卓的早期策略:先拉拢小型硬件厂商和高校实验室,降低SDK使用门槛,甚至提供免费的模型接口,再做商业化变现。

对于很多企业而言,当前的战略重点是评估自身在推理生态中的位置:是选择做类似曦望的“核心部件商”,还是做类似PPIO的“聚合渠道商”,或是做类似优必选的“平台集成商”?没有标准答案,但共同的准则是:必须将“推理成本”作为核心KPI纳入技术路线选择。

最后需要指出,加密资产和量子科技虽然是远期变量,但不可完全忽略。推理GPU可复用为挖矿芯片的逻辑曾在2021年引发市场动荡;而量子计算机若实现商用化,可能彻底颠覆现有公钥加密体系——这既是对AI安全架构的挑战,也可能衍生出“量子+AI”的新计算范式。企业应保持对这两个领域的持续跟踪,但不必因噎废食,过分担心短期冲击。

在AI从“炼丹”走向“应用”的历史转折点上,成本控制与生态协同决定谁能从技术红利中分得最大的蛋糕。而理性的观察者或许会记住:当市场都在追逐最锋利的“矛”(训练性能)时,真正能承载万亿参数运转的“盾”(推理基础设施),才刚刚进入锻造期。