White Circle融资1100万美元监控AI安全

White Circle筹得1100万美元用于监控AI——因为此前无人愿意做这件事

2024年末的一个夜晚，丹尼斯·希洛夫（Denis Shilov）正在观看一部犯罪惊悚片时，突发奇想，决定进行一项实验。他编写了一段提示词，成功地让任何人工智能模型忽略其自身的安全过滤器。这个技巧在概念上极为简单：它告诉模型，停止像一个遵守规则的聊天机器人那样运作，转而开始像一个软件访问接口一样运行——只管响应请求，而不去评估是否应该响应。这一方法在所有主流模型上均奏效。第二天，他在X上的帖子引发了足够大的关注，以至于Anthropic主动联系他，请求私下访问其系统。

希洛夫从这段经历中得出的结论并不是他发现了一个漏洞，而是：没有任何公司拥有一套部署后的控制层，来监管其AI模型在用户开始与之交互后的实际行为。这一发现催生了White Circle。2026年5月12日，这家巴黎初创公司宣布完成了1100万美元的种子轮融资，背后的支持者来自深谙模型内核的业界重量级人物：OpenAI开发者体验总监、如今供职于Anthropic的一位OpenAI联合创始人、Mistral的联合创始人兼首席科学家、Hugging Face的联合创始人兼首席科学官、Datadog的创始人、Keras的创建者，以及来自DeepMind和Sentry的高管。

然而，这轮融资本身并不是这个故事中最引人入胜的部分。真正值得深究的是：什么样的商业基础设施能够在如此早期阶段赢得如此坚定的信念，以及为何市场针对这一特定问题的应对方案姗姗来迟。

AI实验室有动机不去彻底解决的问题

当一家企业将语言模型部署到生产环境时，它便与模型提供商之间建立了一份隐性契约：提供商已经在整体层面上训练模型以某种方式运作，而企业则默认这种训练足以适配其特定用例。然而，这一假设愈发难以为继。

当今的模型同时兼具工具与风险两种属性。一个客户支持智能体可能承诺企业并未授权的退款；一个代码编写智能体可能在不应触碰的虚拟机上安装了某些东西；一个集成于金融应用程序中的模型可能会不当处理客户的敏感数据。这些场景并非假设推演，而是将具备能力的模型部署在指令不完整或存在歧义的环境中所产生的有据可查的后果。

模型实验室的惯常应对措施是在训练阶段进行安全微调。但这种微调在本质上是通用性的。它的校准目标是防止模型解释如何制造武器，或在抽象层面上生成有害内容。然而，它并没有针对某家金融服务公司的具体政策进行校准——例如，在与客户的对话中，哪些内容可以承诺、哪些不可以承诺；也没有针对某家医疗企业关于哪些数据可以相互关联的限制进行校准。

希洛夫还指出了一个更具结构性的问题：即便模型拒绝了某个有害请求，实验室依然按照输入和输出的token数量收费。这意味着，在请求到达模型之前就将滥用行为拦截在外，对实验室而言经济动力十分有限。他还提到了所谓的"对齐税"：训练更安全的模型往往会降低其在代码编写等任务上的性能表现。这种安全性与性能之间的张力并不会因为更多融资而消失——它是一种技术约束，实验室所能做的是管理它，而非消除它。

White Circle押注于：这一缺口仅凭训练端的努力是无法弥合的。其产品是一个实时应用层，部署在企业用户与其所用模型之间，依据该企业的特定政策对输入和输出进行审查，并能够拦截或标记有问题的行为——包括幻觉、数据泄露、违禁内容、提示词注入以及软件环境中的破坏性操作。该公司表示，其系统已处理超过十亿次API请求，并在金融科技、法律及开发工具领域拥有活跃客户，其中包括Lovable。该系统支持逾150种语言，并已通过SOC 2 Type I和II认证，以及HIPAA合规认证。

十亿次请求能验证什么，又无法验证什么

十亿次API请求是一个听起来庞大的数字，但其含义可能因每个客户的请求量、请求类型和留存率的不同而大相径庭。White Circle成立于2025年，目前拥有20名员工，其中绝大多数是工程师。这表明其架构的扩展依赖的是基础设施而非服务团队，这与一个拦截现有流量的API模型的逻辑是一致的。

就公开数据所能揭示的范围而言，这一数字所能验证的是：该平台具有实质性的运营牵引力，而非仅仅是公关层面的声势。一家以潜在客户名单宣布融资的公司，与一家携持续使用证据到达宣布节点的公司之间，存在着重要的本质差异。White Circle于2026年5月发布的基准测试KillBench同样是技术成熟度的重要信号：他们在OpenAI、谷歌、Anthropic和xAI的15个模型上运行了逾百万次实验，以衡量这些模型在高风险决策场景中的偏见表现。结果显示，模型会根据国籍、宗教信仰或手机类型等属性做出不同的决策，而且当响应以供软件读取的结构化格式输出时——这恰恰是大多数企业将模型接入其生产系统的方式——这些偏见会进一步加剧。

这一发现对任何将AI用于具有实际后果之决策的企业都有直接影响。这不是一项学术实验，而是对最常见集成格式中一个风险向量的有据可查的记录。

然而，这一数字目前尚无法验证的是：规模化付费意愿的存在。一个拦截流量的控制层，其商业模式在机制上具有潜在的强大吸引力——如果它成为用户与模型之间工作流程的组成部分，它便能从安全、合规、内容审核和模型运营等多条预算线中获取份额。但这同时也意味着，它需要与那些已经拥有可观测性工具的团队争夺预算，而这些团队可能会抵制引入又一层基础设施。

团队在地理上集中于欧洲——在伦敦、法国和阿姆斯特丹均有存在——这表明，向美国市场扩张（企业级技术预算最大的市场）需要建立销售基础设施，而这是20名工程师所无法覆盖的。此次融资资金很可能就将流向这一方向。

一个模型自身无法单独出售的控制层

White Circle最有力的论据并非技术层面的，而是治理层面的。

希洛夫对此有精准的表述：要求模型提供商来评判其自身模型的行为，存在一个结构性的信任问题。当Anthropic同时负责训练、商业化Claude，并按每个token收费时，它就无法成为Claude行为的中立仲裁者。这并非一种指控，而是对激励机制的客观描述。AI实验室是具有特定商业利益的企业，其安全系统是依据这些利益校准的，而非依据每一家部署其模型的企业的利益。

正是这种分离，使得拥有行业顶尖实验室内部经验的投资者所给予的支持，在战略意义上超越了资金本身。那些从内部了解OpenAI、Anthropic、Mistral和DeepMind之技术与商业约束的人，正在押注：部署后控制问题不会从这些实验室内部得到解决，至少无法达到企业所需要的深度。这既是对问题本身的验证，也是关于市场走向的一个信号。

从聊天机器人向自主智能体的转型，使得这一缺口愈发紧迫。一个应答失当的聊天机器人带来的是声誉问题。一个能够访问文件、执行代码、浏览网页并代表用户采取行动的智能体，则可能造成一封道歉邮件无法挽回的实质性损害。自主智能体控制市场尚处于早期阶段，但AI领域的支出走向已明确无误地指向这一方向。

White Circle在宣布融资时携带的是：经过验证的实际运营使用记录、已发表的研究成果、合规认证，以及来自行业内具备技术公信力人士的支持。这并不保证成功，但却是一个起点——这个起点比种子阶段的初创公司通常所处的位置领先了相当多。下一个真正重要的门槛，并非下一轮融资的头条新闻，而是：有多少受监管行业的企业会主动决定，在用户与模型之间需要一个控制层——而不是等到一次真实事故迫使它们亡羊补牢。