当人工智能在生产中失败时,韧性比智力更重要

当人工智能在生产中失败时,韧性比智力更重要

大多数人工智能代理框架竞争智能,而Dapr Agents v1.0关注的是另一个更重要的方面:不出现故障。

Lucía NavarroLucía Navarro2026年3月29日6 分钟
分享

当人工智能在生产中失败时,韧性比智力更重要

几乎所有管理层会议中都有一个关于人工智能的讨论:模型能进行多深的推理,它的架构有多先进,参数有多少。这是关于智能的讨论。然而,直到系统在凌晨两点中断了关键工作流程时,关于系统崩溃后的应对措施的问题才会出现。

云原生计算基金会(CNCF)在KubeCon欧洲大会上发布了Dapr Agents v1.0,提出了一个令市场不安的前提,因为它迫使人们关注不愿意面对的问题:大多数人工智能代理框架系统地忽视了持久性和故障恢复。全球顶尖的光学和精密技术集团之一蔡司(Zeiss)已经在生产中使用了这一框架。这不仅是一个概念验证,而是得到行业验证的产品。

演示和真实部署之间的差距

过去两年,人工智能代理工具市场在一个维度上竞争:推理能力。框架、调度器和基础模型都发布了关于它们在实验室条件下如何解决复杂问题的基准数据。然而,它们并未公布在多步骤过程中因云服务提供商的30秒微故障而中断时的失败率

这一遗漏导致了具体的运营成本。当一个人工智能代理执行十个步骤的工作流程并在第七步失败时,当前的大多数系统会简单地从头开始。这不仅是技术上的成本:也包括计算时间、最终用户的延迟,而在精密制造或金融服务等行业,这可能直接导致收入损失或违反法规。

Dapr Agents通过故障恢复导向的架构解决了这一问题。它不假设环境是稳定的——这是任何实际的分布式系统都不能享受的奢侈——而是将持久性作为一层基础设施构建。代理可以在中断后重新启动并从确切的位置继续。这不是产品的边际改进,而是关于如何负责任地部署人工智能的根本性转变。

蔡司在生产中验证的正是这一点:运营可靠性不是后来添加的高端功能,而是人工智能在工业环境中产生持续价值的必要条件。能够进行出色推理但无法保证工作流程完整性的系统,在业务层面上,是一个无法量化的风险。

开源模型作为风险分配策略

这是CNCF的一个项目——同样也是托管Kubernetes和Prometheus的基金会——并不是一个小细节。这意味着人工智能代理的韧性基础设施正在作为一种公共资产构建,而不是被大云服务供应商私有化

从金融架构的角度来看,这有着超越技术的影响。选择Dapr Agents的企业并不是在购买来自单一供应商的韧性:它们在构建建立在一种不能因单边企业决策被从市场撤回的基础设施层,并且当客户依赖于它时,也无法大幅提高价格。对于评估人工智能架构总拥有成本的首席财务官来说,这显著改变了长期风险的特征。

由中立基金会支持的开源技术充当了对供应商锁定的结构性保险。在人工智能基础设施领域,供应商的利润随着需求的增长而升级,这一保护具有可衡量的经济价值。建立在Dapr Agents上的组织保留了与模型层和计算层供应商的谈判能力。它们不依赖于AWS、Azure或谷歌决定是否将故障恢复纳入其托管服务,及其价格。

对于在云基础设施不太稳定的市场上运营的影响公司而言,这一架构不仅仅是方便的选择:在最需要的地区,它是能够建立有效产品与无效产品之间的区别。

人工智能市场悄然积累的技术债务

有一个足够经常重复的模式,足以被视为结构性:竞争早期采用的技术优化的是演示,不是操作。结果是,技术债务在后期出现,通常是在系统已嵌入关键流程时,替换其成本不可接受。

人工智能代理市场正面临这一瞬间。企业正在生产中部署代理——自动化销售流程、支持操作、文件分析、制造过程——建立在最初设计来在演示中给人留下深刻印象,而不是用以应付通常分布式环境下故障的基础设施上。由于故障仍可管理,债务在悄然累积。随着流程的关键性增加,这种债务的成本变得越来越难以吸收。

Dapr Agents v1.0明确是对这种动态的反制。通过优先考虑持久性而非推理基准的性能,CNCF在向市场传达一个信息:人工智能平台的成熟性并不取决于它在理想条件下看起来多么智能,而是取决于其在条件失败时表现出的可预测性。

对于那些将人工智能作为基础的企业——而非研究实验室,而是拥有真实客户、服务合同和每小时停机所带来的财务后果的公司——这种区分是任何技术选择过程中应予以优先考虑的评估标准。

C-Level管理层有一个待审核的公式:他们的人工智能策略是为了在投资者面前赢得演示,还是为了在系统在关键流程中失效时保持运营。那些理解运营韧性是竞争优势的公司——而不是基础设施成本——将资金用于技术支持,来提升依赖于这些系统的用户。

分享
0
为这篇文章投票!

评论

...

你可能还感兴趣