千亿Token,却没有一位CFO知道自己买到了什么
2026年6月2日,萨姆·奥尔特曼登上OpenAI企业活动的舞台,抛出了一个精心设计的数据,意在令人印象深刻:公司内部最大的token消耗用户每月处理约1000亿个token。现场反应正如预期。随后,奥尔特曼几乎是顺带一提地补充道,这个数字并非世界纪录,因为OpenAI以外的某位用户消耗量更大。就在此刻,他在不完全刻意的情况下,精准描述了一个正在撕裂企业级人工智能经济体系的问题:消耗增长之快,既超出了卖方的想象,也超过了买方的预算能力。
数字本身之后发生的事,比数字本身更具揭示性。奥尔特曼承认,成本问题如今已是OpenAI企业客户反映最频繁的第二大投诉。他还描述了一个在企业高管之间流传的表情包,其诊断精准程度远超任何分析师报告:"公司在第一季度就花光了2026年的全部预算。能让它更高效一点吗?"表情包里的这个问题并非反问,而是几十家企业当下真实处境的写照——这些企业以2025年的消费模式制定年初预算,却发现智能体模型的消耗速度根本不在同一量级。
六年半前,OpenAI最活跃的用户每月处理约10万个token。如今,这个数字是全球人均平均值。该公司内部最活跃的用户消耗量是当年那个历史纪录的一百万倍。奥尔特曼预计这种扩张还将重演。如果真是如此,今天存在的人工智能基础设施之于未来市场,将如同一台袖珍计算器之于一座数据中心。但在这个预测与企业买方的实际运营现实之间,横亘着一条鸿沟,任何指数增长的幻灯片都无法单独弥合。
预算:衡量技术成熟度的第一个指标
企业技术史上有一个规律,重复发生的次数多到足以被用作分析框架:每当一项技术从实验工具演变为明细运营支出时,财务部门便会进入对话,并改变游戏规则。云软件的情况发生在2010年代中期,数据与高级分析发生在此之后。而智能体人工智能的情况,正在2026年上演,其速度之快,甚至让地球上最复杂企业的高管们也猝不及防。
Uber是记录最为详尽的案例。据报道,该公司在四个月内耗尽了2026年全年的人工智能预算。运营层面的应对立竿见影:对包括Claude Code和Cursor在内的智能体编程工具设定了每名员工每月1500美元的上限。但最具意义的声明并非来自CEO,而是来自首席运营官安德鲁·麦克唐纳,他公开表示,Uber无法在不断增长的token支出与对终端用户——无论是司机还是乘客——的具体改善之间建立直接关联。从价值架构的角度来看,这句话是一级警报信号。不是因为这笔支出本身是错误的,而是因为它表明投资与成果之间的反馈回路尚未闭合。
微软在5月中旬之前取消了其大部分Claude Code内部许可证,并在6月30日财年结束之前将工程师重新引导至GitHub Copilot CLI。表面解读是微软更青睐自家产品。更准确的解读是,微软同样面临人工智能工具的预算超支问题,并选择在问题升级之前,将支出整合在自己的业务边界之内。亚马逊在一位高级主管指示团队停止为了使用而使用人工智能之后,取消了内部的token消耗排行榜。沃尔玛此前曾向员工提供内部人工智能助手的无限token额度,随后也设定了限制。
这一模式并非巧合,也不是孤立的财务恐慌。这是一个信号,表明企业界刚刚跨越了那道门槛——人工智能不再是拥有创新预算的试点项目,而是已经成为与其他运营支出同台竞争、需要证明回报的运营成本。
Token消耗揭示的价值分配结构
消耗数字背后存在一种值得精确审视的经济结构。每一个被消耗的token,都是OpenAI或Anthropic的收入,是云服务提供商的算力需求,也是芯片基础设施投资的依据。从这个角度看,六年半内增长一百万倍的数字,正是支撑基础设施企业估值和大型数据中心合同逻辑的叙事。
然而,同一结构存在一种消耗数字无法捕捉到的非对称分配。支付token费用的企业——Uber、微软、亚马逊、沃尔玛——正在承担增长的运营成本,而价值捕获——以利润率、模型知识产权和定价权的形式——则集中在模型提供商手中。这种不对称在市场意义上未必不公平,但确实对大规模采用模式的可持续性产生了结构性影响。
当Uber的首席运营官表示无法将token支出与产品改善相连接时,他描述的是一个投资回报问题。如果这一问题持续存在,解决方案不是更多token,而是对整个支出架构进行重新谈判。据奥尔特曼本人表示,Anthropic在企业级支出上已超过OpenAI,这一事实为这一分析增添了另一层维度。这意味着模型之间的竞争正在催生平台的扩散,工程团队并行采用多个平台,从而在不一定成倍增加成果的情况下,成倍增加了成本。微软内部正在推行的整合——强制使用单一工具——是对这一问题的理性回应,尽管这一回应包裹在产品偏好的话语外衣之下。
据报道,外部开发者彼得·施泰因贝格尔在30天内消耗了6030亿个token,而一名OpenAI员工据称在一周内使用了2100亿个token,这两个案例揭示了一个不同但相关的问题。当个人消耗量在数量级上远超全球平均水平时,固定或半封闭的定价模式开始产生交叉补贴——这种补贴不会出现在任何财务报表中,却扭曲了服务的经济逻辑。并非所有token的生产成本相同,对消耗者而言的价值也各不相同。
大规模采用模式中无法平衡的账目
自2023年以来,该行业的主流叙事是无摩擦采用:广泛开放访问权限、消除价格壁垒、扩大消耗规模,并在日后通过依赖性、数据和网络效应来捕获价值。这套手册成功构建了庞大的用户基础。问题在于,在企业细分市场,"依赖性"有一个在个人消费者中不具备同等强度的制衡因素:一位CFO和一个年度预算周期。
奥尔特曼将这种态度转变描述为"突然"到来的事情。据他本人表示,2026年初,没有人在乎成本,所有人都对自己的支出水平感到满意。这番话出自人工智能领域最有价值公司的CEO之口,本身就是对采用阶段如何构建的一种诊断:买方在扩大智能体使用规模时,并不清楚自己已经隐性接受了怎样的成本曲线。
智能体模型与单次查询的聊天机器人不同,具有一种使其在规模化后结构性地昂贵的特征:它们以链式方式执行任务,这意味着流程的每一个步骤都会消耗token,包括推理、验证和纠错的中间步骤。人类可能凭一个决策解决的任务,在产生结果之前可能需要模型进行数十次调用。这个乘数效应在适度使用的试点阶段并不明显,而当企业将这些工具同时部署给数百乃至数千名员工时,便变得清晰可见。
其结果是实验阶段感知到的价值与运营阶段实际成本之间的差距。而这一差距无法通过边际效率改进来弥合。它需要的,要么是根本不同的定价模式,要么是对哪些任务值得用人工智能智能体来解决、哪些任务用更简单的流程更为经济的深层次重新审视。
下一个周期的赢家,不是卖出最多Token的人
奥尔特曼的声明与全球最大企业的同步行为共同揭示出最直接的结论:企业级人工智能行业正在进入第二阶段。第一阶段是由热情驱动的采用,依托创新预算,对回报的不确定性有较高容忍度。第二阶段是由论证驱动的采用,人工智能支出与基础设施、人员和运营支出同台竞争,需要证明同等水平的可量化回报。
这一转变对行业而言并非负面消息。但它确实改变了谁将在其中胜出。在第一阶段,胜出者是那些提供最强大模型和最流畅体验的人。在第二阶段,胜出者将是那些能够精确证明每项成果需要多少成本、以及这项成果价值几何的人。这有利于那些开发出可观测性工具、成本控制机制和成果归因能力的提供商,而不仅仅是那些扩大模型原始能力的提供商。
奥尔特曼预测token消耗量将再增长一百万倍。如果这一增长在成本结构对买方变得更加透明和可控之前就已实现,那么届时出现的将不是市场的持续扩张,而是一系列预算修正,这些修正将使采用的进程支离破碎。他亲口引用的那个企业表情包——年度预算在第一季度就被耗尽——并非一个令人莞尔的轶事。它精确描述了当前按token量变现这一商业模式的结构性极限:对卖方而言收入增长的比例,恰好等于对买方造成不可持续压力的比例。
一种能够让这两条曲线共存而不相互抵消的架构,目前尚不清晰。在它出现之前,每一个token消耗的新纪录,都将同时是基础设施层的一条好消息,以及对支撑这一基础设施的企业持续支出能否延续的一个预警信号。











