人間のループがビジネスAIを可能にする理由

人間のループは企業AIを妨げない、それを可能にする

企業における人工知能に関して、広く蔓延した誤りの形がある。それは、システムの成熟度をどれだけ多くのポジションを排除できたかによって測ることだ。その指標は成熟度を測っていない。それはガバナンスのない速度を測っているにすぎず、それこそが重要システムにおける最もコストの高い崩壊に先行する状態に他ならない。

human-in-the-loop——人間の判断がAIワークフローに明示的かつ意図的に統合されるモデル——に関する議論は、ここ数ヶ月で大企業の取締役会において急速に注目を集めている。経営幹部たちが規制トレンドによって慎重になったからではなく、大規模な最初のデプロイが不快な真実を示し始めたからだ。モデルは、企業の内部ポリシーに違反していても、規制上のコンテキストを誤解していても、あるいは社内の誰も承認しなかったような推奨事項を生成していても、正しく聞こえる流暢な回答を生成する。

Gartnerのデータによると、生成AIイニシアティブのほぼ半数がスケールに達しない。主な要因はモデルの品質ではない。それは不在または不十分なリスクコントロールだ。構造のない速度は採用を加速しない。それを中断させる。

計算することと理解することの違いには具体的な財務的結果が伴う

AIシステムは数十年分の運用インシデントデータを処理し、障害パターンが発生する前に特定し、制御された場合には自動修正応答を起動することができる。それは真に価値がある。また、その推奨事項が実行されるべき契約上、規制上、または政治的なコンテキストを完全に無視した、技術的に完璧な推奨事項を生成することもできる。

この区別は哲学的なものではない。それには価格がある。決済プラットフォーム、保険システム、医療ケアのフロー、あるいは誤った出力が法的、財務的、またはレピュテーション上の結果をもたらすあらゆる環境において、「正しい回答」と「コンテキストに適切な回答」の違いは数百万ドルに相当する。言語モデルは高い確率で単語の連鎖を予測する。それらは実際の環境におけるそれらの連鎖の結果に対して責任を負わないし、負うこともできない。

そのシナリオにおけるhuman-in-the-loopが行うことは非常に具体的だ。それは最後の段階での審査ステップとしてだけでなく、システムのライフサイクル全体にわたって判断を分散させる。その分散が起こる4つの層がある。第一に、モデルが動作する前の目的と行動制約の定義において。第二に、特にシステムが不可逆的な結果をもたらすステップを提案する場合、実行前の計画の見直しにおいて。第三に、実行中の監督において、実際の中断または反転能力を伴う形で。第四に、システムの将来の動作を調整する是正フィードバックにおいて。これらの層のいずれかから人間を取り除くことはシステムを単純化しない。それを同時に不透明でもろくする。

セクターのプロバイダーによって文書化されたForresterの調査は、AI意思決定フローに人間によるレビューを統合することで、それらの決定の精度が15%から20%向上すると推定している。これはマーケティングの約束ではない。それはモデルが適切に行動するための十分なコンテキスト情報を持っていない場所で人間を排除することのコストだ。同時に、逆のリスクも存在し、同様にコストがかかる。日常的なあらゆる決定に人間によるレビューが必須であれば、システムは実際の自動化がほとんどない高価な意思決定サポートになってしまう。校正のポイント——ループがどこに適用され、どこに適用されないか——こそが、モデルの経済性が決まる場所だ。

システムが設計された時に誰が部屋にいたか

これは、human-in-the-loopに関する通常の議論が不十分になる点だ。ほとんどの運用フレームワークは、実行の瞬間に人間を配置する。出力をレビューし、承認または拒否し、疑問があればエスカレートする。それは問題の一部を解決する。しかし、不平等が本当に自動化される瞬間には触れない。設計段階だ。

チームがモデルを訓練するデータ、関連性があると見なす変数、人間のレビュアーにいつエスカレートするかを決定するしきい値、出力を検証するために使用するプロファイルを定義するとき、それらの決定は世界の特定のビジョンをコード化する。そのチームが均質であれば——同じ訓練、同じ経験のセクター、組織の権力構造内での同じポジション——そのグループの制約とバイアスはシステムがデプロイされる前にアーキテクチャに埋め込まれる。実行におけるhuman-in-the-loopはそれらを修正しない。ただより一貫性を持って適用するだけだ。

AIシステムの真のガバナンスはモデルが本番稼働している時に始まらない。どの問題を解決するか、どのデータで、どの制約の下で、誰を部屋に置くかを決定する時に始まる。訓練と視点の均質性が高いチームは、グループ内の誰もそれらを見るための立場や角度を持っていないために、グループがそのように認識しない盲点を持っている。彼らは凝集性と呼ぶものが、時として脆弱性——自らの概念的フレームワークがデフォルトで排除するものを検出できないこと——だ。

それには測定可能な結果がある。自動採用システムでは、設計段階でそれらを特定する人物がいなければ、歴史的な採用バイアスが増幅される。信用スコアリングシステムでは、歴史的に十分なサービスを受けていない人口のデータで訓練されたモデルは、それらの同じ人口に対して構造的に不利な評価を生成する。医療トリアージシステムでは、ケアにおける以前の格差を反映する訓練データは、より速く、より大きな規模でそれらの格差を再現する推奨事項を生成する。これらの問題のどれも、設計がすでにそれらを前提として組み込んでいる場合、フローの最後に人間のレビュアーを追加することで解決されない。

企業が誤用している指標

企業AIデプロイにおける最も頻繁なガバナンスエラーは技術的なものではない。それは概念的なものだ。人間の介入が発生する時に、それらが正しく、適切なタイミングで、それらを適切に行うのに十分なコンテキストを持つ人々によって行われているかどうかを測定する代わりに、コンテインメント率——モデルが人間の介入なしに解決するインタラクションの数——によってシステムの成功を測ることだ。

人間の介入を目的としてそれ自体を削減するように最適化することは、ループを校正するのではなく最小化するシステムを生む。コンテインメント率90%を維持するカスタマーサービスシステムは、許容できる品質でケースの90%を解決し、最も複雑な10%——まさに顧客にとって最も価値のあるもの——を、会社内の誰も読んだら承認しないような回答で体系的にブロックしている可能性がある。その数字はダッシュボードでよく見える。ダメージは顧客が去るまで現れない。

重要な指標は異なる。適切なエスカレーション率、エスカレーション後の解決時間、モデルによって解決されたケースと人間の介入によって解決されたケースの間の満足度の違い、そして実際にシステムの将来の動作を調整する是正フィードバック率だ。これらの指標は取得するのがより難しいわけではない。自動化がどれだけのお金を節約したかを見たい経営幹部の前で擁護するのがより難しいだけだ。しかしそれらこそが、システムが学習しているのか、それとも以前よりも効率的にエラーを蓄積しているのかを明らかにする唯一のものだ。

この校正の一部は、ほとんどの組織がまだ持っていない役割を正式化することも意味する。AIデータキュレーター——ラベルの監査、モデルのドリフトの監視、フィードバックループの管理を担当する人物——は装飾的な肩書きではない。それはシステムが、誰も明示的に設計しなかったが誰も時間内に止めなかった動作に向かって逸脱する代わりに、正しい方向に学習し続けることを保証する機能だ。

システムから早すぎる段階で人間を取り除く真のコスト

IBMはエージェント型AIシステムにおける人間の役割を精確なアナロジーで説明している。それはシステムを監視する役割ではなく、航空交通管制を行う役割だ。すべてのフライトを実行するのではない。回廊を定義し、優先順位を確立し、例外的な条件がある時に介入し、自動化されたシステム単独では行えない決定を下す権限と訓練を持っている。この区別は重要だ。なぜなら、それは人件費に関する議論を完全に変えるからだ。

間違った議論はこうだ。「システムが成熟するにつれて、必要な人間は減る」。正しい議論はこうだ。「システムが成熟するにつれて、人間はより高い意思決定層で、介入ごとにより大きなインパクトを持って動作する」。日常的な監督の役割はポリシー定義、アーキテクチャ検証、予期しない結果の評価の役割へと移行する。それは人員削減ではない。システム単独では到達できない場所へのインテリジェンスの再分配だ。

Nuventoがhuman-in-the-loopとエージェント型モデルの間の緊張として説明するものは現実だが、永続的なジレンマではない。それは成熟度の曲線だ。採用の初期段階では、組織がシステムの自律性を信頼するためのガードレールも運用履歴もまだ持っていないため、人間のループは密接でなければならない。組織がモデルがエッジ条件でどのように動作するか、どこで失敗するか、どのような条件下で失敗するかについての証拠を積み重ねるにつれて、盲目的に拡大することなく、校正された方法でシステムの自律性を拡大することができる。

その証拠を持つ前に自律性に向かって加速している組織が直面している問題は、それらを体系的に検出するメカニズムが存在する前にエラーがスケールで発生することだ。デプロイの速度が制度的学習の速度を超える。そしてそれが起きた時、修正のコストは人間のループをより長く活性化させ続けることのコストよりも構造的に高くなる。

このモデルが明らかにする権力のアーキテクチャは、自動化の速度によって成功を測る組織にとっては不快ではあるが、シンプルだ。分散型インテリジェンス——システムの異なるポイントに配置された異なるコンテキストを持つ人間——はリスクへの譲歩ではない。それはシステムが見かけの速度ではなく実際の速度で動作することを可能にする条件だ。短期的な効率のためにそれらのノードを取り除くことは、より速くてより盲目なシステムを生み出す。それはまさに、崩壊が訪れた時に、より高コストで、規制当局、顧客、取締役会に説明するのがより困難になる組み合わせだ。