为什么91%的企业在不知道向AI提供哪些数据的情况下就盲目采用AI
生成式人工智能进入大多数组织,并非通过技术部门的正门,而是借助生产力应用程序的后门悄然渗入。Microsoft 365 Copilot、Gemini,以及各类协作平台内置的智能助手——这些工具在员工日常工作的企业环境中被激活,由此开启了一场无声的实验,而其规则从未被任何人完整地谈判或约定过。
问题不在于语言模型本身,而在于这些模型接入一个真实组织时所发现的内容。
根据Huble发布的《AI数据准备就绪报告》,仅有8.6%的企业认为自己已完全具备运用人工智能的能力。其余91%的企业处于试验与停滞之间的某个阶段,尽管它们已在采用项目上投入了预算、时间和内部声誉。德勤在其2026年《企业人工智能现状报告》中记录到,三分之二的组织报告了生产力提升,但同时也记录了在基础设施、数据管理、人才和风险控制方面持续存在的差距。2025年,员工使用AI工具的比例增长了50%,然而管理这种访问权限的准备工作,并未以同等速度增长。
这一差距并非偶然,而是结构性的。其根源有一个鲜少有组织愿意直白道明的原因:企业数据在大多数情况下处于一片混乱之中。
当无人注视时,智能助手发现了什么
当一家企业在其生产力环境中激活AI副驾驶时,该系统并不会创建新的访问入口,而是利用已有的入口。它以激活该系统的用户所继承的权限运行,访问范围恰好与该用户的授权访问范围一致——但有一个从根本上改变一切的操作差异:它以机器的速度运行。
微软对这一运作机制有精确的文档说明。其Copilot架构明确规定,该系统在服务边界内运行,受限于经过身份验证的用户及该用户有权访问的内容。它不会突破权限,而是执行权限。问题的关键就在这里,而许多安全团队并未将这一点计算得足够清楚:如果权限的开放程度超出了应有范围,那么一个简单的提示词就能检索到以前需要数十次分散的手动搜索才能获取的内容。
多年来从未关闭的共享文件夹;为某次临时分析而复制、随后遗留在个人存储单元中的文件;未经分类归档的含敏感附件的电子邮件;以及没有人删除、因为没有人记得它们存在的文档库中积累的记录——这些才是AI助手接入一个未事先审计其环境便开放访问权限的组织时,真正处理的原始素材。
风险的根源不在于语言模型,而在于模型所继承的数据架构。
安全团队在这里面临的是一个可见性问题,而他们的传统工具无法解决这个问题。数据丢失防护系统是为监控出口点而设计的;身份管理系统负责管理角色和权限;活动日志记录的是已经发生的事情。这些工具中没有任何一个是为了追踪以下情形而构建的:当一次AI查询在单次交互中跨越文档、邮箱、数据库和知识库,生成一个将从未相互关联过的信息碎片汇聚在一起的回答时,究竟发生了什么。
这种交叉所产生的结果可能完全合法,也可能是任何先前控制措施都未曾预见到的敏感数据的高度集中。
忽视模型之前的基础设施所付出的隐性代价
关于企业AI采用的主流叙事存在一个先天扭曲:它将对话焦点放在模型、界面和用例上,却将以下问题置于次要位置——哪些数据在驱动这些决策,以及在何种排序、分类和治理条件下运作。
Gartner估计,63%的组织不具备支撑AI项目所需的数据管理实践。这一数字有助于解释为何如此多的部署在投入生产前便已停滞——原因既非模型的局限性,也非预算不足,而是底层数据基础设施无法支撑模型连贯运行所需的条件。
这种滞后带来了直接的财务后果。那些在未先行解决数据层问题的情况下就投入许可证费用、培训和流程变革的组织,正在为他们无法可靠使用的能力付费。更糟糕的是,他们承担着无法量化的风险敞口。如果AI系统在未分类数据上运行,权限过度开放,且缺乏关于何处存在什么内容的最新清单,那么监管层面的风险敞口将以审计人员和法律团队仍在学习如何衡量的方式持续扩大。
Persistent Systems等在该领域专业化的供应商,围绕三个精确的轴线构建其解决方案:基础设施优化、数据质量以及AI工作负载的安全规模化。这一顺序并非偶然,规模化排在最后,而非最前。
Astutis在其2026年报告中记录显示,绝大多数员工预期AI将在五年内对其工作职能产生重大影响,但今天真正积极使用AI的人只占极小一部分。原因不是文化上的抵触,而是在准备不足的企业环境中使用AI工具的真实体验会产生具体的摩擦:回答前后不一致,结果混杂来自不同上下文的信息,以及对系统返回内容是否可信的持续不确定性。这些摩擦无法通过改进模型来解决,只能通过解决数据问题来消除。
像治理高风险身份一样治理AI
在这一领域最为领先的组织已经在执行一种概念转变,而其他组织终将不得不跟进:将AI代理视为受治理的身份,而非用户工具。
当一个副驾驶或自动化代理访问企业系统时,它通过服务账户、编程接口和用户上下文来实现。它拥有权限,它对数据采取行动,它生成可能包含敏感信息的输出。正是出于这些原因,它理应受到与组织中任何高特权身份相同的对待:定期访问审查、最小权限原则的执行、行为监控,以及对其所接触内容的可追溯性。
大多数企业安全计划并未针对此进行配置。它们是在面向人员和系统的思维模式下设计的,而非面向以自身逻辑运作、整合多方信息来源、并产生其人类操作者往往无法预测的输出结果的AI代理。
在操作层面上,为AI准备数据至少需要四个具体步骤。第一,建立一份关于环境中活跃AI系统的最新清单,包括嵌入生产力平台的副驾驶、定制化模型和自动化代理,并将其映射至各自访问的数据来源。第二,跨云存储、SaaS应用和遗留存储库,一致性地对敏感数据进行分类,因为缺乏这种分类,合规控制措施便无法区分敏感信息与普通信息。第三,对AI代理应用与高风险服务账户相同的审查标准:其权限应反映实际使用情况,而非累积的历史继承。第四,将上述数据上下文与现有控制措施相连接,包括数据丢失防护系统、身份与访问管理以及访问网关,使策略能够反映真实的风险敞口,而非抽象的模式。
这些步骤中,没有任何一步需要等待AI模型的改进,它们都是关于已有基础设施的决策。
数据准备不是前置步骤,而是真正的核心赌注
企业AI市场正以每年超过30%的速度增长,预计到2030年规模将达到1500亿至2000亿美元。在这一背景下,竞争优势将不在于比他人更早采用AI,而在于将AI建立在一个能够自信运营、无摩擦扩展的基础之上。
那些将数据准备视为次要技术形式的组织,正在生产环境中发现:他们的AI系统产生不一致的结果;他们的法律团队无法认证AI辅助流程的监管合规性;他们的安全团队无法回答关于哪些信息正在被谁处理的基本问题。
这一时刻所揭示的位移,其核心并非技术性的,而是治理层面的。人工智能正在迫使企业直面那些在任何副驾驶被激活之前就已存在的数据问题:未分类的数据、未经审查而持续累积的权限、不完整的清单、为人工且缓慢的搜索时代所设计的控制措施。改变的不是这些问题的出现,改变的是,再也无法在没有显而易见且迅速到来的后果的情况下对其视而不见。
在这一周期中处于最有利位置的组织,是那些明白数据准备工作并非采用AI的前置步骤的组织。恰恰相反,它是决定采用AI究竟是创造价值,还是仅仅在一个运行速度更快的系统之上制造更大风险敞口的根本性基础工作。











