为什么95%的企业AI项目无法通过试点阶段

为什么95%的企业AI项目无法通过试点阶段

在董事会会议室里令人叹为观止的演示,与一个周一到周五稳定运行、无需人工救场的系统之间,存在着巨大的鸿沟。人工智能行业两年来一直在精心打造前者,却始终未能将这种能力转化为后者。问题并不在于模型本身——那些模型正变得越来越强大。

Tomás RiveraTomás Rivera2026年6月12日9 分钟
分享

为何95%的企业AI项目无法熬过试点阶段

在董事会会议室里令人叹为观止的演示,与一个周一到周五稳定运行、无需任何人出手救场的系统之间,存在着本质的差距。人工智能行业用了两年时间,以极高的技巧打造了前者,却始终未能将这种技巧迁移到后者。而这背后的原因并不在于模型本身——模型正变得越来越强大——而在于人们选择了怎样谈论这些模型,进而选择了怎样构建它们。

那些最为坦诚的行业技术团队之间流传着一个难以忽视的数字:根据MIT NANDA Initiative(由Iris.ai引用)的数据,高达95%的企业生成式AI项目未能实现可量化的投资回报。70%至95%的失败率,并非市场"尚未成熟"的信号,而是一个结构性问题存在的信号——当前的构建方式,从根本上就出了问题。

Enrique Dans在2026年6月10日发表于《快公司》(Fast Company)的一篇文章中,精准地指出了裂痕所在。问题不在于大语言模型的技术能力,也不在于员工的抵触情绪,而在于一个对于靠说服投资者为生的行业来说更难以承认的事实:企业AI是建立在隐喻之上的,而非建立在形式化模型之上的。而隐喻,无论多么善于销售,都无法被工业化复制。

从诗意的语言到无法扩展的架构

过去两年间充斥于AI话语中的隐喻清单,既冗长又耐人寻味。这些系统会"记忆"、会"反思"、会"规划",甚至在Anthropic为其智能体描述的"睡眠"技术案例中,还会"入睡"。Azure OpenAI助手API的文档将"线程"描述为存储消息历史并在上下文窗口耗尽时截断消息的机制,并将其称为"记忆"。Anthropic的工程团队谈论"长时运行"的智能体,这些智能体需要在"会话之间保持连续性"。

这些描述在技术层面并非不正确,但问题在于,它们是描述性的,而非形式性的。隐喻用于描述,模型用于形式化,这一区别具有直接的经济后果。

当"记忆"不是一个数据模型,而只是一个操作类比时,就不存在已定义的身份,没有持久化状态,没有具有明确权限的关系,也没有系统能够独立于使用者或使用次数而保证的约束条件。用技术术语来说,就是缺乏不变量(invariants):无论外部条件如何,架构所维护的规则。没有不变量,每一次实施都是一场全新的协商。每次部署都需要有人将企业的实际运营情况翻译成系统能够处理的语言。而这种翻译,无法委托给模板来完成。

由此产生的可观察结果是:包括OpenAI和Anthropic在内的主要前沿AI供应商,正如Dans的文章所描述的那样,正在向其企业客户派遣工程师和外勤团队,以梳理工作流程、定义约束条件、连接各类系统。这表面上看起来是高端服务,实则是一个结构性信号:平台本身无法独立完成任务。当定制化翻译成为主要的交付模式时,产品便不再是一个平台,而是变成了一种披着技术外衣的咨询服务。

对于买方而言,这种模式的成本是双重的。其一,是直接的定制集成费用——每当系统、法规或内部流程发生变化,这种集成就必须重新进行。其二,是无法扩展所带来的机会成本:如果每一个新的应用都需要同等程度的人工干预,那么每次额外实施的边际回报就不会随时间推移而改善。成本曲线不会下降,平台的承诺也不会兑现。

AI行业尚未经历的那段历史性跨越

Dans将企业AI的当下时刻,与三次确实实现了工业化的技术转型相关联,对于那些倾向于将AI智能体视为史无前例现象的人来说,这种对比颇为不安。

埃德加·科德(Edgar F. Codd)在二十世纪七十年代开发了关系型数据模型。在此之前,数据库是各自为政的专有实现,各有其语言、存储逻辑和访问方式。科德之后,出现了一种形式化抽象:关系、属性、键、函数依赖。在这一形式化基础之上,SQL应运而生,而SQL之上又催生了一个价值数千亿美元的软件、集成与服务市场。使这个市场成为可能的,并非数据库变得更加强大,而是它们变得可以被足够精确地描述——精确到两个独立系统无需事先协商即可相互理解。

互联网遵循了同样的模式。W3C定义了由URI标识的资源、在RFC 9110中形式化的无状态协议,以及HTTP方法、状态码和HTML的共享语法。没有任何一家公司发明了浏览器,然后要求客户雇用顾问来解读其网页的含义。这套语法是公开的、形式化的、足够精确的,任何开发者都可以在其上构建,无需打任何电话。

SAP对企业流程也做了同样的事。其在ERP领域的主导地位,并非来自拥有比同时代顾问更好的界面,而是来自将企业形式化为一个技术对象:主数据、交易、会计逻辑、库存、采购、运营关系。这种形式化使得实施具有足够的可重复性,从而催生了模板、认证合作伙伴、扩展插件以及一个繁荣的二级市场。客户与客户之间的差异被缩减到足够小,使得从一次实施中积累的知识能够为下一次实施创造价值。

这三个案例的共同点在于:从能力到平台的跨越,并非因为技术改进而发生,而是因为有人精确地定义了这项技术所代表的内容以及它运行的规则。在这三个案例中,都有一个形式化的时刻先于规模化的时刻而出现。

企业AI尚未经历那个时刻。它拥有能力,却缺少语法。

麦肯锡所证实的,以及大多数团队所忽视的

MIT关于失败率的数据并非唯一可用的证据。Dans文章中引用的麦肯锡关于AI现状的研究得出了一个结论,这个结论应该让那些用已启动试点项目数量来衡量进展的团队感到不安:从AI中获得实质性收益的企业,并非那些使用了最多AI的企业,而是那些重新设计了工作流程的企业

这种区别并非语义层面的差异。将AI叠加在现有流程之上,充其量只能产生边际效益。围绕一种形式化的工作表示来重新设计流程,则会产生截然不同的结果:在这样的系统中,人工智能不是一个附加组件,而是流程本身运作的前提条件。

迈克尔·哈默(Michael Hammer)在《哈佛商业评论》中写道,企业在采用新技术时会犯一个可预见的错误:他们加速了现有流程,而非取而代之。Dans在当下语境中重新援引了这一论点。哈默错误的当代版本,就是拿一个为阅读纸质文件的人类设计的审批流程,为其添加一个能够总结文件的大语言模型,然后将此称为转型。该流程具有相同的因果结构,只是在某个中间步骤中多了一个更快的组件。

麦肯锡在那些有可量化回报的企业中发现的重新设计,具有一个结构性特征:存在一个层级,用以定义业务中的实体是什么、它可以处于什么状态、哪些状态转换是有效的、每个操作需要什么权限,以及无论系统收到何种指令都不可违反的规则。这不是一个精心设计的提示词(prompt),而是Dans所称的形式化层——这一层级至今仍未被行业以标准化的方式构建出来。

有无这一层级的区别,是可以被审计的。没有它,系统对同一查询的响应可能因会话历史、提问用户或前一条指令的措辞不同而有所差异。有了它,就存在不变量:无论智能体从它读取的电子邮件中"理解"到什么,客户合同都不能在没有区域经理授权的情况下被修改。这种保证不来自大语言模型,而来自包含它的架构。

对于受监管的行业而言,这种区别并非技术偏好问题。在金融服务、医疗健康或公共部门,缺乏可验证的不变量不是一种运营上的不便,而是大规模部署的拦路虎,因为没有任何法务团队会在一个无法保证决策一致性的系统上签字承担责任。

下一场争夺战不在模型之间,而在抽象层之间

Dans的分析以一个值得认真对待的战略信号作为结尾:在企业AI下一阶段,竞争优势不会被拥有最强大模型的供应商赢得,而会被那些定义了其他人在其上构建的形式化抽象层的玩家赢得。

这引出了一个具有具体市场影响的问题,尽管答案尚不明朗。定义这一抽象层的天然候选者有几类,各有其不同的激励机制。微软、谷歌和亚马逊等大型云服务商拥有分发渠道和企业关系,但同时也有保持密集咨询模式的动机,因为该模式能带来可观的专业服务收入。OpenAI和Anthropic等模型实验室拥有深厚的技术积累,但它们的业务是围绕模型能力而非围绕包裹模型的流程形式化来构建的。SAP、Salesforce、Oracle等成熟的企业软件公司,已经在数据与流程的形式化层之上运营,但它们对新架构的适应速度历来较慢。

最有趣的空间,或许属于一类在市场上尚无清晰名称的参与者:一位知识与工作流基础设施方面的专家,其价值主张不是大语言模型本身,而是让模型能够在企业内部运作、无需在每次实施时进行人工翻译的那一层。类似于上世纪九十年代中间件(middleware)所扮演的角色,但具备对其所包含规则进行推理的能力。

这类参与者胜出的信号,不会是一次产品发布公告。那个时刻将是:来自不同行业的两家企业能够共享一套实施方案,而无需任何一方打电话给顾问来解释"已批准"在本组织内意味着什么。当语法足够精确,使这一切成为可能的时候,企业AI的手工艺阶段便宣告终结。在那之前,95%的失败率并非统计意义上的偶然,而是用类比而非定义来构建系统所必然付出的代价。

分享

你可能还感兴趣