年間674億ドルのコスト
チャットボットが政治家の経歴を作り話すのと、AIエージェントが作り上げた情報に基づいて買い注文を実行することには重大な違いがあります。前者の場合、損害は評価にとどまり可逆的です。しかし、後者の場合、資金は既に口座から出て行ってしまっています。
実際、これは現在起こっていることです。Fortuneに引用されたAllAboutAIの研究によると、AIの幻覚によって引き起こされる世界的な損失は2024年に674億ドルに達する見込みです。これは理論的な予測や将来のリスクシナリオではなく、言語モデルが生成した虚偽の情報に基づいて実行された意思決定の結果、既に計上されているコストです。フォレスターリサーチによれば、企業の従業員は、AIが誤った情報を生成した場合、その確認や修正に毎年約1万4200ドルを費やしています。
問題は新しくはありませんが、AIシステムが質問に答えるだけから、実際の行動を実行するようになった今、その質が大きく変わりました。会話の中で幻覚を起こす言語モデルは信頼できないアシスタントです。一方、市場でポジションを管理する際に幻覚を起こす自律エージェントは、運用上の直接的な損失の源となり、その影響は規制および評価に及び、どの経営陣も無視することはできません。
Fortuneが収集したAveni.aiのデータによると、金融に関する相談での幻覚発生率は41%に達します。この数字を背景に置いて考えてみましょう:万が一ジュニアの人間アナリストが4回に1回の確率で誤った分析を行えば、そのアナリストは第一四半期を乗り越えられないでしょう。しかし、AIエージェントは誰もリアルタイムで監視できない規模と速度で動作するため、各エラーは潜在的なシステム全体の問題になるのです。
問題がバージョンではなくアーキテクチャーにある理由
機関の反応は、この事態の深刻さを反映しています。Google DeepMind、Microsoft、Columbia Universityおよびt54 Labsの研究者たちは、Fortuneによると、AIの自律エージェントの周りに「金融セーフティネット」を構築する作業に取り組んでいます。目標は、幻覚が実際の取引に変わる前にそれを阻止するプロトコルを作成することです。
この取り組みの重要性は、関与する機関の名前ではなく、その内包する診断にあります:問題はより良いモデルのバージョンによって解決できるものではありません。モデルとは別のガバナンス層によって解決されるのです。
この違いは戦略的に重要です。過去3年間、業界は、より多くのパラメータ、より多くのトレーニングデータ、およびより良い指示が幻覚を軽減して無視できるレベルにまですすむという仮定のもと運営されてきましたが、市場のデータはそのナラティブに反しています。arxiv.orgで発表された研究により、17のAIモデルが178の暗号通貨市場タスクについて評価されましたが、補助ツールなしではモデルは28%の正確度しか達成できなかったのです。これに対して、人間アナリストは同タスクにおいて80%の正確度を示しました。補助ツールの使用で性能は67.4%に上昇しましたが、構造的な欠陥が生じました:モデルは権威ある情報源よりも低品質のウェブ検索を優先する傾向があったのです。この問題は、モデルの推論能力ではなく、情報を選択する基準にあったのです。
この発見が議論の核心です。金融の幻覚が常にモデルが何かを知らないために発生するわけではありません。多くの場合、モデルは正しい答えにたどり着く方法を知っているが、入力データを得るための間違った道を選択するのです。これは意思決定のアーキテクチャーの欠陥であり、単独の重み調整によっては解決できません。
既に市場はこれを認識しています。ガートナーは、2023年から2025年にかけて幻覚検出ツールへの318%の成長を報告しています。企業の91%のAI政策が今や明示的な緩和プロトコルを含むようになりました。組織はモデルの改善を待っているわけではなく、コストを知っているからこそ、外部のセーフティレイヤーを構築しているのです。
幻覚のコストはエラーに留まらず、引き金を引くチェーンにある
幻覚のコストを直接的な損失の観点だけで分析するのは問題の半分にしかすぎません。より深刻な損害は、相互に影響し合う三つの層で作用します。
第一に、規制層です。米国の証券取引委員会(SEC)および英国の金融行動監視機構(FCA)は明確です:企業はAIシステムのアウトプットの責任を負います。「アルゴリズムがエラーを起こした」は罰則に対する有効な弁護ではありません。つまり、自律エージェントによって実行される各取引は、そのエージェントを展開した機関の法的署名を伴うことになります。具体的なエラーがどれほどの人間の監視のもとであったとしても関係ありません。2023年に発生したエアカナダの事例では、チャットボットによる誤った情報のために同社が訴訟に負けたことで、金融セクターは無視できない法的前例が確立されました。
第二は、運用上の信頼の層です。AllAboutAIの2025年の研究によれば、47%の経営者が、後に誤りとされるAI生成のコンテンツに基づいて意思決定を行っています。このような事例が繰り返されると、経営者がAIの使用をやめる結果にはならず、逆に非公式の確認層を発達させ、これが自動化で解放されるはずの時間を消費する結果となります。確認のオーバーヘッドは生産性を22%低下させ、この結果、初期の自動化投資の経済的価値を大きく毀損します。
第三の層は最も静かなものであり、機関の判断基準の劣化です。チームがアウトプットに対する不信感を学び、信頼できる状況とそうでない状況を正確に把握できない場合、結果は選択的な麻痺となります。低リスクの意思決定が過剰に検証され、高速取引でのエラーが過小評価されます。これは損益計算書には現れませんが、会計期間における蓄積された意思決定の質には影響します。
セーフティネットは負担ではなく競争優位性
誤解すべきことがあります:AIエージェントのセキュリティプロトコルは、採用を妨げる規制負担であるという考え方です。データはその逆を示しています。
セーフティレイヤーのアーキテクチャに投資している機関は、Google DeepMindのプロジェクトのような外部確認層を標準化することで、リスクを低減し、高い自律を持つエージェントでの運用が可能になります。これは技術的なフィランソロピーではなく、法的責任と評価を蓄積せずに高価値のユースケースを拡大するための前提条件です。
経済的な論理は単純です。AIからの金融相談の41%が潜在的に誤ったアウトプットを生成する場合、セーフティーレイヤーを持たないことのコストは自動化された取引の量に比例して増加します。少量の取引ならエラーは管理可能で是正可能ですが、毎日の数千の取引のスケールでは、これはシステム全体の負債に変わります。この問題を市場が規制を求める前に解決した企業は、他の後れを取った企業が後で購入できないタイミングの利点を手に入れるでしょう。
この市場は自律AIの採用サイクルにおける生産的な失望の段階にあり、初期の約束が運用限界に衝突し、初めから存在すべきだったサポートインフラの構築を余儀なくされています。このインフラは、リスクを軽減するだけでなく、システムに新たなエージェントを追加する際の限界コストを減少させ、セキュリティをスケールの加速剤に変える役割があります。
信頼性をコンプライアンスコストではなく、製品の特徴として扱うモデルこそが、AIが人間の判断を強化することを可能にし、チームがそのエラーを補うために強いられずに済むのです。










