ホワイトサークルがAI監視に1100万ドル調達

White Circleは、誰も乗り出さなかったAI監視のために1,100万ドルを調達した

2024年末のある夜、Denis Shilovはポリス・スリラーを観ていた。そのとき、ある実験のアイデアが浮かんだ。彼は、どのAIモデルでも自身の安全フィルターを無視させることができるプロンプトを書いた。仕掛けは概念的にはシンプルだった。モデルに対し、ルールを持つチャットボットとして振る舞うのをやめ、リクエストに応じるべきかどうかを評価せずにただ応答するソフトウェアのアクセスポイントとして動作するよう指示するものだった。これは主要なモデルすべてに対して機能した。翌日、そのXへの投稿は十分な反響を集め、Anthropicが彼にコンタクトを取り、自社システムへのプライベートアクセスを求めてきた。

Shilovがこのエピソードから導き出した結論は、バグを発見したということではなかった。どの企業も、ユーザーがモデルとやり取りを始めた後に、AIモデルが何をするかに対するデプロイ後のコントロール層を持っていない、ということだった。この観察がWhite Circleへとつながり、2026年5月12日、パリを拠点とするこのスタートアップは、モデルを内側から知る人物たちが支援する1,100万ドルのシードラウンドを発表した。支援者には、OpenAIの開発者体験ディレクター、現在Anthropicにいる元OpenAI共同創業者、Mistralの共同創業者兼チーフサイエンティスト、Hugging Faceの共同創業者兼チーフサイエンティスト・オフィサー、Datadogの創業者、Kerasの開発者、そしてDeepMindとSentryの幹部たちが名を連ねた。

この資金調達そのものは、この話の中で最も興味深い部分ではない。興味深いのは、その確信をこれほど早期に正当化するビジネスインフラの種類と、その特定の問題に対する市場の反応がなぜこれほど遅れたのか、という点だ。

AIラボが完全には解決するインセンティブを持たない問題

企業が本番環境に言語モデルをデプロイするとき、モデルプロバイダーとの暗黙の契約を引き継ぐ。プロバイダーはモデルをある一般的な方法で振る舞うよう訓練しており、企業はその訓練が自社の特定のユースケースに対して十分であると想定する。この前提は、維持することがますます難しくなっている。

現在のモデルは、ツールであると同時にリスクでもある。カスタマーサポートのエージェントが、企業が承認していない返金を約束してしまうかもしれない。コーディングエージェントが、触れるべきではない仮想マシン上に何かをインストールしてしまうかもしれない。金融アプリケーションに組み込まれたモデルが、顧客の機密データを誤って扱うかもしれない。これらのシナリオはいずれも仮定の話ではなく、不完全または曖昧な指示を持つ環境に有能なモデルをデプロイすることで記録されてきた結果だ。

モデルラボの通常の対応は、訓練中のセーフティ・ファインチューニングである。しかし、そのファインチューニングは定義上、汎用的なものだ。武器の製造方法の説明や抽象的に有害なコンテンツの生成をモデルが避けるよう調整されている。金融サービス企業が顧客との会話において何を約束でき何を約束できないかという特定のポリシーや、医療企業がどのデータをどの程度照合できるかという制限に対して調整されてはいない。

Shilovはより構造的な問題を指摘している。ラボは、モデルが有害なリクエストを拒否した場合でも、入出力トークンに対して課金する。つまり、モデルに到達する前に悪用をブロックする経済的動機が限られていることを意味する。また、いわゆる「アライメント税」についても指摘している。より安全なモデルを訓練すると、コーディングなどのタスクでのパフォーマンスが低下する傾向があるというものだ。安全性とパフォーマンスのこのトレードオフは、資金を増やしても消えるものではない。それはラボが管理するものであって、排除されるものではない技術的制約なのだ。

White Circleは、このギャップは訓練側からだけでは埋められないと確信している。同社のプロダクトは、企業のユーザーとモデルの間に位置するリアルタイムのアプリケーション層だ。企業固有のポリシーに照らして入出力を確認し、問題のある行動をブロックまたはフラグ立てすることができる。そのような行動とは、幻覚、データ漏洩、禁止コンテンツ、プロンプトインジェクション、ソフトウェア環境での破壊的なアクションなどだ。同社は10億件以上のAPIリクエストを処理したと述べており、フィンテック、リーガル、開発ツール（Lovableを含む）において積極的な顧客を有している。このシステムは150以上の言語をサポートし、SOC 2 Type IおよびType IIの認証に加え、HIPAAへの準拠も達成している。

10億件のリクエストが検証するものとしないもの

10億件のAPIリクエストというのは、大きく聞こえるが、クライアントあたりの量、リクエストの種類、リテンション率によって、まったく異なる意味を持ちうる数字だ。White Circleは2025年に設立され、従業員は20名で、そのほぼ全員がエンジニアだ。これは、サービスチームよりもインフラによってスケールするよう設計されたアーキテクチャを示唆しており、既存のトラフィックを傍受するAPIモデルと整合性がある。

この数字が検証するのは、公開データが許す範囲で結論付けるならば、プラットフォームがPR上の牽引力だけでなく、運営上の牽引力を持っているということだ。見込み顧客リストと共に資金調達を発表する企業と、継続的な使用の証拠を持って発表に臨む企業の間には重要な違いがある。White Circleが2026年5月に公開したベンチマーク「KillBench」も、技術的成熟度のシグナルとして機能している。OpenAI、Google、Anthropic、xAIの15モデルに対して100万件以上の実験を実施し、リスクの高い意思決定シナリオにおけるバイアスを測定した。結果は、国籍、宗教、電話機の種類などの属性によってモデルが異なる判断を下すことを示した。さらに、そのバイアスは、ソフトウェアが読み取るための構造化されたフォーマットで回答が求められる場合に悪化することも示された。これはまさに、ほとんどの企業がモデルを本番システムに接続する方法だ。

この発見は、実際の影響を伴う意思決定においてAIを使用するあらゆる企業に対して直接的な影響をもたらす。これは学術的な実験ではなく、最も一般的な統合フォーマットで発生するリスクベクターの記録だ。

この数字がまだ検証していないのは、スケールでの支払い意欲だ。トラフィックを傍受するコントロール層のビジネスモデルは、潜在的に強力なメカニズムを持っている。ユーザーとモデルの間のワークフローの一部となれば、セキュリティ、コンプライアンス、コンテンツモデレーション、モデル運用など、複数の予算ラインを獲得できる。しかしそれはまた、すでにオブザーバビリティツールを持ち、別のインフラ層を追加することに抵抗感を持つチームの予算をめぐって競合することも意味する。

チームのロンドン、フランス、アムステルダムへの地理的集中は、最大のエンタープライズテクノロジー予算が存在する米国市場への拡大が、20人のエンジニアではカバーできない営業インフラを必要とすることを示唆している。調達した資金はおそらくそこへ向かうだろう。

モデルだけでは販売できないコントロール層

White Circleの最も強力な主張は、技術的なものではない。ガバナンスに関するものだ。

Shilovはこれを的確に表現した。モデルプロバイダーに自身のモデルの振る舞いを判断させることには、構造的な信頼の問題がある。Anthropicは、Claudeを訓練し、販売し、生成されるすべてのトークンに対して課金している当事者であるとき、Claudeの振る舞いの中立的な仲裁者にはなれない。これは非難ではなく、インセンティブの説明だ。AIラボは特定の商業的利益を持つ企業であり、そのセーフティシステムはそれらの利益に対して調整されており、モデルをデプロイする各企業の利益に対して調整されているわけではない。

この分離こそが、業界最重要ラボでの経験を持つ投資家からの支援が、資本を超えて戦略的に重要である理由だ。OpenAI、Anthropic、Mistral、DeepMindの技術的・商業的制約を内側から知る人々が、デプロイ後のコントロールの問題は、企業が必要とする深さでそれらのラボ内から解決されないと確信して賭けている。これは問題の検証であると同時に、市場の方向性に関するシグナルでもある。

チャットボットから自律エージェントへの移行は、このギャップをより緊急なものにする。誤った応答をするチャットボットは評判の問題だ。ファイルにアクセスし、コードを実行し、ウェブを閲覧し、ユーザーに代わって行動を取るエージェントは、謝罪のメッセージでは取り返しのつかない損害を生み出しうる。自律エージェントの制御市場はまだ初期段階にあるが、AIへの支出の方向性は明確にそこへ向かっている。

White Circleは、運用上の使用実績、公開された研究、コンプライアンス認証、そして業界における技術的な信頼性を持つ人々の支援を携えて発表に臨んだ。これは成功の保証ではないが、シードステージのスタートアップが通常置かれる位置よりも、相当に先んじたスタートラインだ。次に重要な閾値は、次の資金調達の見出しではない。それは、規制された業界における何社の中小企業が、インシデントによって嫌でも探し求めることを強いられる前に、ユーザーとモデルの間にコントロール層が必要だと判断するか、という点だ。