評価の多さは理解の深さではない

常に評価し続けることは、より深く理解することとは同義ではない

数十年にわたり、航空業界はパイロットの能力を二つの指標で測定してきた。コックピットでの累積飛行時間と、認定を受けた航空機の機種である。これらは取得にコストがかかり、改ざんが難しく、合理的な予測精度を持つ指標だった。そのシステムは完璧ではなかったが、ほとんどの組織が正当に評価しきれない一つの美点を持っていた。それは、自分たちが何を測定しているのか、そしてなぜ測定しているのかを、正確に把握していたという点である。

今日、増加する数の企業が継続的なパフォーマンス評価システムへと移行しつつある。その多くは人工知能によって推進されており、従業員をより頻繁により深く把握することで、タレント、育成、組織構造に関するより良い意思決定が可能になるという前提に基づいている。この約束は魅惑的だ。しかし問題は、測定の頻度が理解の深さと等しくないという点であり、その混同が、多くの企業が正確に計算できていない戦略的な結果をもたらしているということだ。

ハーバード・ビジネス・レビューの最近の記事は、サンジート・ポール・チョウダリーとジョン・ウィンサーによって署名されており、この二人は人工知能と組織設計の交差点において持続的な研究を行ってきた人物である。その記事はこの緊張関係を直接的に提示している。彼らの出発点となる主張は的確だ。AIの進歩は、人間と機械の間の分業を、従来の手段——職位、履歴書、年次評価——が追いつけない速度で再設計しているというものだ。彼らが代替案として提案するのは、能力を動的に捉え、育成、内部異動、人員計画の意思決定と結びつける継続的評価システムである。診断においては正しい。議論が始まるのは、その解決策の実際のアーキテクチャを検討するときだ。

継続的評価が解決できることと、解決できないこと

継続的評価システムを支持する議論は弱くない。従来の年次評価に関するデータは、効率性の観点から言えば、正確に言って壊滅的なものがある。100人規模の企業は、従業員自身が自己評価に費やす時間を除いても、正式なパフォーマンスレビュープロセスに年間約5,500時間を費やしている。これは、従業員の35%が不公平だと認識し、十分な不安を生み出しているために5人に1人が評価当日に病欠を取るという儀式に吸収された、ほぼ3つのフルタイムポジションに相当する。

置き換えようとしているモデルがそのレベルの摩擦と不信感を生み出しているなら、変革の必要性にそれ以上の論証は必要ない。そこで継続的評価システムは、真に価値あるものを提供する。すなわち、実際の業務データをスキルギャップの早期シグナルへと変換する可能性、公式な回路では決して可視化されなかったタレントを発見する可能性、そして能力の危機が取り返しのつかないものになる前に人員計画を調整する可能性だ。

効率性は、管理職の時間という観点からも支持される議論を持っている。人工知能がパフォーマンスデータの収集と予備分析を自動化できれば、リーダーは評価のアーカイブ係として機能することをやめ、戦略的なコーチとして行動するようになる。この時間の解放は些細ではない。チームの加速育成に投資した組織は、かつて低付加価値の業務的な疑問の解決に費やされていた重要な時間をリーダーが取り戻していると報告している。

しかし、このシステムには、継続的なデータという語り口が隠蔽しがちな構造的な限界がある。より高頻度で測定することは、何を測定するかという問題を解決しない。AIが収集するメトリクスが主に応答速度、アウトプットの量、またはルーティンタスクの遂行を反映している場合、継続的評価は従業員のより豊かな像を生み出さない。それは、最も表面的な活動のより粒度の細かい像を生み出すだけだ。戦略的に見て、この二者の違いは極めて大きい。

さらに、タレントマネジメント研究者が増大する明確さで特定してきたリスクがある。評価システムが攻撃的なパフォーマンス目標に直接結びつけられ、モニタリングが常時行われる場合、その効果は持続的なモチベーションではなく焦点の狭窄化だ。チームは実験をやめ、学習に必要なリスクを取ることをやめ、監視されていることが分かっているメトリクスにエネルギーを集中させる。ハイパフォーマンス目標に関する研究で記録されている結果は、短期的には良好に見えるが、中期的には静かに劣化するというものだ。

本当の問題は技術ではなく、システムの目的だ

企業は市場で最も洗練された継続的評価システムを導入しながら、基本的な業務上の問いに答えられないままでいることができる。それは、自分たちが測定しているものを何のために測定しているのかという問いだ。これはツールに対する批判ではない。インフラを導入することと意思決定能力を構築することの違いについての観察だ。

この区別が重要なのは、継続的評価システムが中立ではないからだ。それらは、どのように設計され、組織が何を価値あるものとするかについて従業員にどのようなシグナルを送るかに直接依存した文化的結果を生み出す。システムがデータを収集しながらも、それを具体的な成長の会話へと変換しない場合、従業員が受け取るものはフィードバックではない。それは監視だ。そして監視は、たとえ善意をもって意図されていたとしても、チームの心理的安全性に対して予測可能な影響を与える。

組織行動の研究は、同僚のパフォーマンスについてフィードバックを提供するよう求められた場合、そのリクエストが評価としてではなくアドバイスの依頼として組み立てられると、フィードバックの質が著しく向上することを示してきた。アドバイスは未来に向けられ、具体的な推奨事項を生み出し、助けようとする意欲を活性化する。評価は過去を見つめ、防衛メカニズムを活性化する。継続的評価システムが真の成長を生み出すためには、データを取り巻く人間のやり取りが、分析画面だけでなく、そのロジックに基づいて設計されなければならない。

組織が過小評価しているガバナンスの側面もある。AIシステムが人材評価において存在感を増すにつれ、スコアがどのように生成されるか、歴史的データで訓練されたアルゴリズムにどのようなバイアスが含まれているか、そして従業員がその情報に対してどのような権利を持つかという問いが避けられないものとなる。これは抽象的な規制上の問いではない。それは業務上の信頼に関する問いだ。自動化されたシステムによってどのように評価されたかを理解していない従業員は、有意義な形で行動を修正することができない。その代わりに、システムが捉えていない指標への注意を怠りながら、可視化された指標を最適化することを学んでしまうかもしれない。

透明性と説明可能性のアーキテクチャなしにこれらのシステムを導入している組織は、最終的に定着率、協働、そして学習への意欲という形でその代償を払うことになる信頼の負債を積み上げている。

測定の頻度が戦略的判断に取って代わるとき

継続的評価システムの大規模な採用には、注意深く検討すべき暗黙のロジックがある。そのロジックは、より多くの、より頻繁な、より粒度の細かいデータがあれば、人材についてより良い意思決定が行われるというものだ。これは、関心のある変数が安定しており、測定モデルが堅牢であり、指標と重要な結果との結びつきが確立されているドメインでは意味をなすロジックだ。

タレントマネジメントにおいては、これら三つの条件のいずれも自動的には満たされない。人間の能力は本質的にコンテクスト依存的だ。誰かが設計の悪い役割では平凡なパフォーマンスを示しながら、別の役割では卓越したパフォーマンスを示すことがある。測定モデルは設計者のバイアスと、訓練に使用された歴史的データのバイアスを引き継ぐ。そして、システムが捉える短期的な指標と、重要な長期的な組織成果との結びつきは、最良の場合でも部分的だ。

これは継続的評価システムの有用性を無効化しない。それらを人材に関する戦略的判断の代替として無効化するのだ。そして正確にその区別こそが、多くの組織が実装の熱狂の中で見失っているものだ。

チョウダリーとウィンサーが彼らの議論に挿入している警告、すなわち組織はこれらのシステムの実装方法において慎重でなければならないという警告は、些細なニュアンスではない。それは問題の核心だ。なぜなら実装の「どのように」は技術的な変数ではないからだ。それは目的の変数だ。年次レビューのコストを削減し、プロジェクトへの人材配置を最適化するために継続的評価を導入する組織は、学習ギャップを検出し、内部異動を加速し、より質の高い成長の対話を維持するために導入する組織とは根本的に異なることをしている。両者は同じプラットフォームを購入できるかもしれない。しかし、文化的・戦略的結果は異なるものとなるだろう。

ガートナーのアナリストが2026年に向けて指摘しているリスクはこの意味で示唆的だ。AIは、短期的な指標が堅調に見える一方で長期的な結果を侵食しながら、実行不可能なパフォーマンスプレッシャーを促す業務条件を生み出す可能性があるというものだ。これは管理の他の領域でよく知られたパターンだ。測定されるものが最適化され、ダッシュボードに現れないものは放棄され、組織はスプレッドシートに列を持たないプロセスで実質を失いながら、報告書では良く見えることを静かに学習する。

どのシステムも組織に代わって行えない選択

最高の継続的評価システムにもできないことがある。それは、それを使用する者がどのような組織でありたいかを決定することだ。評価の目的がコントロールなのか成長なのかを解決することはできない。データが対話を開くために使われるのか閉じるために使われるのかを決定することはできない。学習速度の指標が四半期目標達成の指標より重要かどうかを確立することはできない。

これらは組織アーキテクチャの決定であり、いかなる技術的な選択にも先行する。明示的にそれらの決定をしないまま継続的評価プラットフォームを採用している企業は、無知から無謀なのではない。より一般的な理由から無謀なのだ。実装の緊迫感が、システムが自分でそれらの決定を下すだろうという、あるいは後から決定できるという錯覚を生み出す。組織変革における蓄積された経験は、目的についての決定が先送りにされると、システムが動作するコンテクストのデフォルトの目的を採用することを示唆している。ほとんどの組織において、そのデフォルトの目的は成長ではなく、パフォーマンスのコントロールだ。

導入の決定に先立つ瞬間、つまり組織が取得したデータで何をするか、どのような対話を生み出すか、評価された人々の信頼をどのように守るか、そしてシステムの結果をどのような種類の意思決定に結びつけないかを明確にしなければならない空間、それが真の戦略的瞬間だ。ベンダーの選定でも、指標ダッシュボードの設計でもない。

目的、限界、情報の使用について明確な答えを持ってその瞬間に到達した組織は、単により良い技術を導入しているのではない。それらは、プレッシャーの下での組織学習を維持できる評価システムを構築しているのであり、それはまさに職場における人工知能の加速が必要とするものだ。先送りにする組織は、高頻度かつ粒度の細かいデータによって、すべてを測定しながら何も理解していなかったことを発見するだろう。