企业为何在应用与AI模型间构建中间层

为什么大型企业正在其应用程序与AI模型之间增加一个中间层

每当一项技术从实验阶段转变为生产基础设施时，都会出现一个反复上演的规律。这种规律曾在关系型数据库、云服务和微服务领域中出现过。如今，它正在大型语言模型领域再次上演。这一规律可以预见：首先，各组织将其应用程序直接连接到新技术，因为这是最快的方式。随后，当规模扩大时，这种直接连接开始出现裂缝。这些裂缝有其技术名称——不稳定的延迟、服务中断、速率限制、响应截断——但从根本上来说，这是一个设计问题：没有人在用户感受到摩擦之前，预先部署一个能够吸收摩擦的中间层。

AI网关（或称AI gateways，英语技术文献中的常用术语）的兴起，正是对上述裂缝的结构性回应。而使其具有战略意义的，并非技术组件本身，而是它所揭示的企业人工智能采用所处的历史时刻：那些曾经谈论试点和原型的组织，如今谈论的是运营连续性、容错能力和基础设施成本。这已不再是一场关于创新的讨论，而是一场关于生产工程的讨论。

---

那道从未被预先设计规避的鸿沟

要理解为什么AI网关会变得必要，首先需要理解大多数组织在大规模采用的最初几年里，是如何将其应用程序连接到语言模型的。最常见的架构也是最显而易见的：应用程序直接调用服务商的API——OpenAI、Anthropic或其他——然后等待响应。这种设计在受控条件下运行良好。但在生产环境中，条件并不受控。

语言模型的延迟特性与传统API有着本质上的差异。 一个经过良好索引的数据库可以在毫秒内响应。而语言模型可能需要数秒，并且这一时间会因服务商的负载、提示词的复杂程度、预期响应的长度以及完全超出调用方控制范围的因素而产生变化。当应用程序没有设置超时策略时，一次缓慢的响应就会变成一个阻塞请求。当多个请求同时被阻塞时，整个系统便会陷入性能下降。这与分布式系统工程师几十年前就已学会应对的故障模式如出一辙，只是如今被应用于一个新的基础设施层。

第二个结构性问题是实时传输的可靠性。许多AI应用采用逐步交付响应的方式——逐个令牌（token by token）输出——因为这能提升用户对速度的感知。但这种交付方式容易受到在处理过程中途发生的连接中断的影响。如果没有一个能够检测中断、重试请求并为客户端重建数据流的中间层，用户就会收到不完整的响应。不完整的响应并非一个微不足道的技术错误：它恰恰是用户决定"这个产品不好用"的那一刻。

第三个脆弱性来源是多服务商并存的问题。单一服务商策略在初期十分便捷，但在规模化运营中存在较大风险。依赖单一语言模型的组织完全暴露在该服务商任何中断事件的影响之下。AI网关能够将请求分发给多个服务商，根据可用性或成本应用路由逻辑，并将应用程序与任何特定服务商的价格或性能变化相隔离。

---

区分原型与架构决策的关键所在

技术团队有时会在一次严重事故之后才学到一个重要区别：构建一个可以运行的东西，与构建一个在上下文发生变化时仍然能够持续运行的东西，是截然不同的两件事。从架构角度而言，AI网关正是这一区别在语言系统中的具体体现。

网关将操作策略集中管理，这些策略若不集中处理，就需要每个应用程序单独实现：重试次数限制、超时阈值、服务商过载时的指数退避配置。如果每个应用程序都各自管理自己的错误处理逻辑，不可避免的结果就是不一致。有些应用程序会有合理的策略，另一些则完全没有。而当服务商发生性能降级事件时——这种情况终究会发生——整个系统的行为取决于每个独立团队在设计时对该场景考虑得有多周全。

集中管理这些策略并非技术官僚主义，而是一个组织能够预测其系统在压力下如何运行与无法预测之间的差别。 这种可预测性对业务具有直接价值：它能够支撑服务水平协议的设计、量化故障的财务影响，并最终维护用户对依赖AI的应用程序的信任。

此外还有一个可见性维度。没有集中管理层，组织几乎无法了解其语言模型消耗的实际情况：发出了多少请求、成本几何、哪些请求失败了、平均耗时多少。网关将这种不透明的流量转化为可观测的数据，而这些数据是后续所有优化决策的原材料。无法看见的东西，就无法加以管理。

反对引入这一中间层的论点，通常是它所带来的额外延迟。在每一毫秒都至关重要的场景中，这是一个合理的反对意见。但对于大多数企业应用场景——后台处理、自动化工作流、非交互式任务——网关的延迟成本与语言模型本身以秒计的固有响应时间相比，几乎可以忽略不计。真正的权衡是在略微增加的延迟与大幅提升的可靠性之间作出选择。对于生产环境的应用程序而言，这个权衡有着明确的答案。

---

这一决策所揭示的组织时刻

在AI网关的采用背后，有一些超越技术架构本身的深层含义。一个组织决定部署这一中间层的时机，精准地揭示了其在人工智能方面的运营成熟度。

处于实验阶段的组织采用直接架构，因为迭代速度比健壮性更有价值。在那个阶段，这是正确的选择。错误在于：当实验阶段结束之后——当应用程序拥有真实用户、当工作流依赖该系统、当故障会产生可量化的后果——架构却没有随之改变。适合原型的直接连接方式，在系统进入生产环境后就演变成了技术债务。

在有效规模化推进AI的组织中反复出现的规律是：基础设施决策是在第一次事故发生之前做出的，而非之后。 在服务商中断期间、用户受到影响、解决压力迫在眉睫之时，才去校准重试策略、超时阈值和退避配置，其效果会远远差于在有充裕时间和历史数据的情况下进行的校准。

这也是一个组织层面的决策，而不仅仅是技术层面的决策。通过直接API集成构建AI应用程序的团队，会有天然的动力去抵制引入额外中间层——他们将其视为对开发速度的一种阻碍。要克服这种阻力，平台领导者需要清晰地传达：网关并非官僚主义的障碍，而是AI领域中的可靠性工程实践的对等物，而这些实践他们已经应用于其余基础设施之中。可靠性并非最后才添加的功能特性，而是从一开始就需要融入设计的系统属性。

过去十八个月间，这一领域的解决方案市场迅速扩张。Portkey、LiteLLM和Kong等专业平台，以及Cloudflare等成熟基础设施服务商，竞相将自己定位为企业环境中语言模型管理的标准中间层。这些平台之间功能的趋同——多服务商路由、按令牌计费跟踪、响应缓存、监控与可观测性——表明市场正在达到一种通常先于整合发生的成熟度。未来二十四个月，很可能会出现云服务商或成熟API管理平台的收购行动，这些企业寻求将这一能力整合进其现有产品体系之中。

---