频繁评估不等于真正理解员工能力

持续评估并不等于更深入的理解

数十年来，航空业用两项指标衡量飞行员的能力：驾驶舱累计飞行时数和已取得认证的机型。这些指标获取成本高昂，难以造假，且具有合理的预测效度。这套系统并非完美，但它有一项鲜少被组织以应有方式认可的优点：它清楚地知道自己在测量什么，以及为何而测量。

如今，越来越多的公司正在向持续绩效评估系统迁移，其中许多系统由人工智能驱动，其前提是：更频繁、更深入地了解员工，将使企业在人才、培训和组织架构方面做出更好的决策。这一承诺颇具诱惑力。问题在于，测量频率并不等同于理解深度，而这种混淆正在产生战略层面的后果，且鲜有企业对此做出正确的评估。

《哈佛商业评论》近期发表了一篇由桑吉特·保罗·乔达里（Sangeet Paul Choudary）与约翰·温索（John Winsor）联合署名的文章。这两位作者长期深耕人工智能与组织设计的交叉领域，文章直截了当地揭示了上述矛盾。他们的核心论点精准到位：人工智能的进步正以传统工具——职位名称、简历、年度评估——所无法追踪的速度，重塑人与机器之间的分工格局。他们提出的替代方案是：建立持续评估系统，动态捕捉能力状态，并将其与培训决策、内部流动和劳动力规划相连接。他们的诊断是正确的。争议从审视这一方案的真实架构时开始。

持续评估能解决什么，以及它无力解决什么

支持持续评估系统的理由并不薄弱。关于传统年度评审的数据，用准确的话来说，在效率方面是毁灭性的。一家拥有百名员工的公司，每年大约要花费5500小时用于正式绩效评审流程，这还不包括员工自身在自我评估上所投入的时间。这相当于近三个全职岗位被一种仪式所吸纳——而根据近期研究，35%的员工认为这一仪式不公平，且产生了足够多的焦虑，以至于每五名员工中就有一人会在评估当天请病假。

如果所要替代的模式产生了如此程度的摩擦与不信任，那么变革的必要性无需多加论证。正是在这一背景下，持续评估系统提供了真正有价值的东西：将真实工作数据转化为技能差距的早期预警信号的可能性，识别出正式渠道永远无法发现的人才，并在能力危机变得不可逆转之前提前调整劳动力规划。

从管理者时间分配的角度来看，效率同样具有充分的理由。如果人工智能能够自动化收集和初步分析绩效数据，领导者便不再需要充当评估档案的保管员，而可以转型为战略教练。这种时间的释放并非边际性的：那些投入于加速团队培训的组织报告称，领导者得以收回大量原本消耗在低价值运营疑难解答上的时间。

然而，该系统存在一个结构性局限，而持续数据的叙事往往倾向于掩盖这一点。更高频率的测量并不能解决"测量什么"的问题。如果人工智能所捕捉的指标主要反映响应速度、产出量或常规任务完成情况，那么持续评估呈现的并非员工更丰富的画像，而是其最表层活动的更精细图景。两者之间的差异，从战略角度而言，是巨大的。

此外，人才管理研究人员还识别出一种日益清晰的风险：当评估系统与激进的绩效目标直接挂钩，且跟踪监控持续不断时，其效果并非持续的激励，而是视野的收窄。团队停止实验，停止承担学习所必需的风险，并将精力集中于那些他们知道正在被观察的指标上。这一结果已在高绩效目标研究中有所记录：短期表现亮眼，而中期则悄然退化。

真正的问题不是技术，而是系统的目的

一家公司可以部署市面上最精密的持续评估系统，却仍然无法回答一个基本的运营问题：它为什么要测量它所测量的内容。这并非对工具的批评，而是对安装基础设施与构建决策能力之间区别的一种观察。

这一区别至关重要，因为持续评估系统并非中立的。它们产生的文化后果直接取决于其设计方式，以及它们向员工传递的关于组织所重视之物的信号。如果系统收集数据却未将其转化为具体的发展对话，员工所接收到的就不是反馈，而是监控。而监控，即便出于善意，也会对团队的心理安全感产生可预见的影响。

组织行为学研究表明，当人们被要求就同事的绩效提供反馈时，如果该请求被框架为寻求建议而非进行评估，反馈质量会显著提升。建议面向未来，产生具体的建议，并激活一种助人的意愿。评估则回望过去，并激活防御机制。要使持续评估系统产生真正的发展效果，围绕数据展开的人际互动必须以这一逻辑为导向，而不仅仅是分析界面的设计。

还有一个组织正在低估的治理维度。随着人工智能系统在人员评估中的地位日益凸显，关于评分如何生成、以历史数据训练的算法包含哪些偏见、以及员工对这些信息拥有哪些权利等问题，将变得不可回避。这不是一个抽象的监管问题，而是一个运营信任问题。一名无法理解自己如何被自动化系统评估的员工，无法以有意义的方式纠正自身行为。他们能做到的，是学会优化那些可见的指标，同时放弃关注那些系统无法捕捉的方面。

那些在没有透明度与可解释性架构的情况下部署这些系统的组织，正在积累信任债务，这些债务终将在员工保留率、协作意愿和学习意愿方面付出代价。

当测量频率取代了战略判断

持续评估系统被大规模采用背后，存在一种值得仔细审视的隐性逻辑。这种逻辑认为：拥有更多、更频繁、更细粒度的数据，就能在人员决策上做出更好的判断。这种逻辑在以下领域是有意义的：所关注的变量是稳定的，测量模型是稳健的，且指标与真正重要的结果之间的联系是明确的。

在人才管理领域，这三个条件均无法自动得到满足。人类的能力本质上是情境依赖的：一个人在设计不当的岗位上可能表现平庸，而在另一个岗位上则可能表现卓越。测量模型会继承其设计者以及用于训练的历史数据所携带的偏见。而系统所捕捉的短期指标与真正重要的长期组织成果之间的联系，在最理想的情况下也只是局部的。

这并不否定持续评估系统的实用价值。它所否定的，是将其作为人员战略判断之替代品的做法。而正是这一区别——恰恰是这一区别——正在被许多组织在实施热潮中所忽视。

乔达里与温索在其论点中植入的警示——组织必须谨慎对待这些系统的实施方式——并非一个微小的注脚，而是问题的核心所在。因为实施的"方式"并非一个技术变量，而是一个目的变量。一个以降低年度评审成本、优化人员项目分配为目标实施持续评估的组织，与一个以发现学习差距、加速内部流动、支撑更高质量发展对话为目标实施同一系统的组织，所做的事情在本质上是截然不同的。两者可能购买的是同一个平台，但其文化和战略结果将截然相异。

Gartner分析师针对2026年所指出的风险在这一意义上颇具说明性：人工智能可能创造出推动不可持续的绩效压力的运营条件，在短期指标看似稳健的同时，侵蚀长期成果。这是管理其他领域中一个熟悉的模式：对所测量的内容进行优化，放弃那些未出现在仪表板上的内容，而组织在报表上悄然学会了光鲜亮丽，却在那些没有电子表格列位的流程中失去了实质。

没有任何系统能替组织做出的选择

最优秀的持续评估系统有一件事是做不到的：决定使用它的组织想要成为哪种类型的组织。它无法解决评估的目的是控制还是发展。它无法确定数据将被用于开启对话还是关闭对话。它无法确立学习速度指标比季度目标完成率指标是否更重要或更不重要。

这些都是组织架构层面的决策，且先于任何技术选择而存在。那些在没有明确做出这些决策的情况下采用持续评估平台的企业，其鲁莽并非出于无知，而是源于一个更为普遍的原因：实施的紧迫性制造了一种幻觉，让人以为系统会自行做出这些决策，或者这些决策可以留待事后处理。组织变革领域积累的经验表明，当目的的决策被推迟时，系统便会采用其运行情境中默认的目的。在大多数组织中，这一默认目的是绩效控制，而非绩效发展。

做出实施决策之前的那个时刻——组织必须厘清它将如何处理所获数据、将产生哪些对话、如何保护被评估人员的信任，以及哪些类型的决策不会与系统结果相挂钩——才是真正的战略时刻，而非供应商的遴选或指标仪表板的设计。

那些在这一时刻拥有关于目的、边界和信息使用的清晰答案的组织，并非仅仅在更好地实施技术，而是在构建一套能够在压力之下支撑组织学习的评估系统——而这正是人工智能在工作中加速渗透所迫切需要的。那些推迟这一决策的组织将会发现，凭借高频率、精细粒度的数据，他们测量了一切，却理解了甚少。