没有任何高管在人工智能报告中提及的盲点
企业采用人工智能的官方图景看起来井然有序:获批的投资、正在推进的试点项目、展示生产力指标的数据仪表盘。然而,这些报告背后存在一个未被捕捉到的层面,而真正的风险恰恰就积聚于此。
Gartner 技术成熟度曲线(Hype Cycle)将生成式人工智能定位于当前的"幻灭低谷"——五个阶段中的第三阶段,在这一阶段,市场预期开始与具体成果相互较量。这是一个重新清算账目的时刻。而正在浮出水面的数字并不令人感到轻松:一项在科技圈广泛流传的麻省理工学院研究得出结论,95% 的企业生成式人工智能试点项目正在走向失败。不是以惊天动地的方式崩盘,而是悄然消逝,没有留下任何可衡量的成果。
这个数字背后隐藏的真相,比数字本身更耐人寻味。这不是一个技术问题,而是一个组织架构问题、一个可见性问题,归根结底,是企业如何管理一个运动速度超过其感知能力的事物的问题。
当采用速度超越观察能力
人工智能在大型组织中的采用遵循了两条同步推进的路径:自上而下的高管指令,以及自下而上来自业务团队的自发工具使用。两条路径在没有共同地图的情况下各自前行。
其结果是一份支离破碎的清单。不同业务单元针对相似的任务使用不同的工具,监督程度从严格管控到完全非正式,参差不齐。这绝非小事一桩。与人工智能系统的每一次交互都会生成行为记录:提出了什么问题、共享了哪些数据、激活了哪些工作流程。这些信息客观存在,但在大多数情况下,既未被系统性地捕获,也未被加以分析。
问题不在于组织以去中心化的方式使用人工智能,而在于领导者基于对这种使用方式的主观假设在运营,而这些假设并无实证依据。他们自以为清楚哪些工具处于活跃状态、哪些数据在其中流转、在何种条件下运行。而实际上,这种认知往往是残缺的,且频繁过时。
ISACA 在其 2026 年风险分析报告中对此有精准的描述:人工智能企业风险的核心存在一个盲点,这不是模型能力的问题,而是对其使用状况的管控问题。脆弱性并不在于模型可能犯下什么错误,而在于组织缺乏足够的可见性,无法得知在每一次交互层面究竟发生了什么。
当可见性低下时,风险会以多种形式同时显现。敏感数据通过未获授权的工具遭到泄露;人工智能代理持有从未经过正式审查的访问权限;自动化决策在最初的试点获批之后再也无人审计;而最为突出的是,领导者向上级汇报的人工智能计划绩效与日常运营中实际发生的情况之间,存在一道日益扩大的鸿沟。
安全研究揭示了关于在用模型的哪些问题
关于盲点的讨论还涉及一个技术维度,而这个维度通常被排除在董事会层面的讨论之外。语言模型的安全评估方法已经发生了变化,而评估结果对于那些依据标准基准测试批准部署的团队而言,着实令人不安。
关键的区分在于单轮测试与多轮测试之间的差异。在单轮测试中,评估的是模型在单次交互中是否拒绝执行有问题的指令。而在多轮测试中,模拟的是一种迭代式对话,攻击者在每次得到回应后调整其策略。两种测试的结果存在显著差异。
National CIO Review 引用的研究表明,针对主流服务商的模型,对话式攻击的成功率介于 7.89% 至 88.30% 之间,具体数值取决于模型类型和攻击方式。这不是统计噪声——这是一个宽幅区间,应当促使组织重新审视其已部署系统的稳健性。
其实际含义直截了当。那些基于单轮安全测试批准部署的组织,所掌握的风险图景低估了在长时间使用或面临对抗性压力条件下可能发生的情况。而那些在部署前未进行任何正式测试的组织,其声称的信心与实际面临的风险敞口之间的差距则更加巨大。
问题并不止于模型安全层面。谈及人工智能代理时,风险边界进一步扩展。代理不仅仅是回答问题,它还会采取行动——可以访问内部系统、执行流程、做出委托决策。这使其成为组织内部的一个操作主体,并由此带来所有相应的风险:从未被撤销的访问权限、在试点期间授予但从未重新评估的许可,以及没有记录在任何人会定期审查的日志中的活动。
TechRadar Pro 用一种在任何运营风险会议上都值得引起重视的方式表达了这一点:问题不在于人工智能本身,而在于赋予它的访问权限。那些报告重大事件发生率显著较低的组织,正是那些对代理实施了最小权限控制的组织——那些将代理视为正式身份来对待、需要规范的配置、定期审查与权限撤销的组织。
无法为自身负责的人工智能支出
这一问题存在一个财务维度,而人工智能治理讨论通常对此避而不谈。如果一个组织无法观察其人工智能投资的使用方式,也就无法可靠地衡量其回报。
这会带来具体的影响。人工智能预算基于生产力预测获得批准,而这些预测在许多情况下,是建立在无法代表大规模实际使用条件的受控试点基础之上的。当大规模使用真正到来时,伴随而至的是未获授权的工具、未受监督的工作流程以及没有人预料到的行为模式。生产力的提升或许确实在发生,但如果对其成因及条件缺乏可见性,领导者就无法有意识地加以复制,也无法以可控的方式进行规模化扩展。
这里的脆弱机制十分具体:当可见性低下时,资本流向的是内部最善于自我推销的工具,而非创造最大价值的工具。那些以真正产生成果的方式使用人工智能、但缺乏正式文档记录的团队,会在下一预算周期被排除在外。而拥有更精致汇报材料的团队,即便指标更为逊色,也会获得额外资源。
这不是内部腐败的问题,而是信息架构的问题。在缺乏真实使用数据的情况下,投资委员会依赖的是定性证词,而非经过观察的模式规律。而定性证词系统性地偏向于成功故事,而非那些悄无声息地积累成本却未能创造价值的沉默式失败。
合规风险进一步加剧了这一局面。金融、医疗健康及关键基础设施领域针对人工智能使用的监管正在以超出组织预期的速度走向成熟。监管机构已经在提出、且许多企业尚无法回答的问题十分简单:哪个模型、用了哪些数据、依据哪项政策、做出了哪个决策?无法回答这个问题,不仅仅是声誉风险。在受监管的市场中,这是运营授权层面的风险。
技术成熟度曲线不会自行解决的结构性问题
企业技术采用的历史规律表明,能力与治理之间的差距并不会随时间自动弥合。云计算催生了影子 IT。SaaS 使未受管理的身份标识大量涌现。企业移动化开放了攻击面,而对这些攻击面进行系统梳理花费了数年时间。人工智能正在遵循同样的模式,但其传播速度更快,且存在一个实质性的差异:代理能够采取行动,而不仅仅是存储或传递信息。
将能够持续创造价值的组织与那些吸收成本却无回报的组织区分开来的,既不是所选择的模型,也不是所签约的服务商,而是系统性地观察自身使用状况的能力——将交互数据视为运营信号加以对待、并在问题对外可见之前就建立起基于这种观察的管控机制的能力。
那些正在有效应对这一挑战的组织,都在切实推进三件具体的事情。第一,像对待任何企业软件资产一样对人工智能资产进行清单管理:列出库存、版本信息、访问权限、负责人。第二,针对关键系统实施交互层面的活动日志记录,这不是为了监视员工,而是作为投资决策和风险管理的实证依据。第三,以与审查人类访问权限相同的严格程度,定期审查授予人工智能代理的权限。
这三件事没有一件需要尚不存在的技术,它们需要的是组织层面的意愿——承认这一问题不仅仅属于 IT 范畴,认识到解决方案不能完全委托给技术团队来处理。在董事会演示文稿中无人提及的盲点恰恰在于此:领导者自以为掌握的关于人工智能使用情况的认知,与每一次交互层面实际发生的情况之间,存在一道信息鸿沟,其运营、财务和监管后果正在悄无声息地积累。
这一周期中的脆弱性不在于模型本身,而在于部署者的观察架构。那些在监管机构或重大事件将其暴露于外之前便理解这一点的组织,将比那些以被动应对的方式领悟到这一教训的组织拥有结构性优势。











