报告人工智能威胁不再是道德选择:而是风险基础设施

报告人工智能威胁不再是道德选择:而是风险基础设施

OpenAI承诺将在发现“紧迫和可信”的威胁时通知当局。揭示的是当安全依赖于模糊阈值和迟到发现的身份时的脆弱性。

Isabel RíosIsabel Ríos2026年2月27日6 分钟
分享

报告人工智能威胁不再是道德选择:而是风险基础设施

触发这一路线调整的案例非常严峻,然而在商业上更让人感到不安。OpenAI在2025年6月关闭了一位与加拿大塔姆布勒岭大规模枪击案有关的ChatGPT账号,因其发现该账号存在对人类生命的威胁,违背了其使用政策。该账号被禁用,然而当时没有通知警方。直到在悲剧发生之后,肇事者的姓名被公开,OpenAI才确认同一人曾操作过第二个账号;而该账号则立即被分享给当局。由此,公司正式实施了新的政策:发现对话中存在“紧迫且可信的”威胁时,便会通知安全力量,即使没有具体的目标、手段或时机的细节。

对C级高管而言,重要的不仅是标题,而是模式。对话式人工智能行业正步入一种状态,即风险管理不再是法律附属品,而是产品的核心能力。当系统的用户规模达到“数亿”(这是公司使用的术语)时,安全不再仅仅是一套规则,而是基础设施:检测、验证、升级、外部协调和可追溯性。正如所有基础设施一样,其在危机中的表现受审计,而非意图。

政策改变是一次运营承认,而非声誉的胜利

在OpenAI全球政策副总裁Ann O’Leary致加拿大当局的一封信中,公司承诺在识别到“紧迫且可信的”威胁时通知警方。此外,公司承认,若这一新标准在2025年6月生效,他们本应将此案转交给当局。这个问题的核心在于:组织正试图暗指,其之前的标准不足以应对其产品所捕获的风险水平。

这种调整几乎总是涉及治理的紧张关系:何时结束内容审核,何时开始有义务将事件升级为真实的危害威胁。在人工智能领域,这一界限尤为微妙,因为该产品不仅是“发布”内容;它与用户进行高情感密度的交互,在某些情况下,用户可能将其视为陪伴或指导。

从商业角度来看,这一转变也是监管压力的信号。加方官员将最初未通知视为重大失误,并威胁如果保障措施不充分,将对聊天机器人进行监管。当一个政府建议特定的监管措施时,成本不仅仅是合规。更有商业摩擦、报告要求、审计、合规风险等在受规制领域内的影响,最严重的情况是考虑限制产品投放。

在大规模运营中,报告威胁的政策就像是一个“声誉”和“监管”的保险。但是,像所有保险一样,它需要支付保费:团队、流程、培训、工具和协调。那些把这视为反应性支出的公司,正错失市场的发展机会。

真正的脆弱在于逃避:身份、重复和禁止的幻觉

该案例中关键的细节并不仅在于存在一段令人担忧的对话。更关键的是,系统检测并关闭了一个账号,而同一个人操作的第二账号却在身份被公开之前活跃着。OpenAI现在承诺加强系统以检测再次违规的用户,防止他们通过创建新账号来逃避禁令,并宣布将定期评估与暴力活动相关的自动化阈值。

这里暴露出科技组织中一个常见的盲点:认为“禁止”与“消除风险”是等同的。在数字产品中,如果没有认真对待信号、相关性和防止逃避的方法,禁止措施极其有限。而随着产品规模的扩大,逃避行为不再是边缘案例,而是变成了可预期的行为。

从社会架构的角度来看,这也是一个网络问题。平台作为横向网络运作,其中“中心”(公司)无法完全看到一切。有效的信息存在于边缘:微弱的信号、模式的变化、行为的组合,往往对孤立的算法不明显。如果安全系统被构建成一个集中决策的管道,模型就会变得脆弱。并不是出于恶意,而是出于设计。

OpenAI的回应朝着正确的方向发展,提到与心理健康专家、行为专家及安全部队的合作,以便完善标准。关键字是“完善”。仅仅表述将会进行转介并不足以解决问题;实际表现将取决于他们如何定义“可信”与“紧迫”,避免过度报告和不足报告。这样的平衡不是通过备忘录达成的,而是通过能够学习的组织能力达成的。

隐私、安全及错误的成本:这一困境通过流程解决,而非口头表述

OpenAI将这些变化框架化为试图在用户隐私与公共安全之间取得平衡。这个紧张关系是真实的,并直接影响商业:过度报告容易削弱信任与采纳,特别是在敏感领域;而报告不足则带来监管、诉讼和声誉损害。

然而,在相对规模出售通用技术的公司中,这一困境更多是通过工程组织解决而非哲学。结果质量由三个组成部分决定:

首先,可审核的操作标准。在面对紧迫和可信的威胁时,报告的承诺仅限于内部升级规则、人为审查及审计时的可追溯性。如果阈值不明确,或在没有获得正式学习的情况下更改,则系统变成为一座在舆论危机中反应的钟摆。

第二,外部协调渠道, OpenAI宣布将建立一个专门的联系人,以加速与当地安全部队的信息交流。这一点至关重要:安全是在物理世界中通过当地机构执行的。协调不能是一般性的,也不能默认为“全球化”,或在发生事件时依赖于即兴应对。

第三,针对滥用的产品能力。Engadget还报道OpenAI推出了类似Lockdown Mode和高风险标签的功能,专注于防止提示注入攻击和数据外泄,计划在几个月后向企业用户和普通消费者推向市场。尽管该产品包更多是与网络安全相关,但战略性信息仍然相同:市场正在推动安全成为显式产品控制的一部分,而不是一份PDF政策文件。

对C级高管而言,意味着直接的影响:如果你购买或集成人工智能,问题不在于供应商“是否有原则”。而是它是否有可重复的机制来应对故障、滥用、升级和与第三方的协调。

这一事件揭示的治理与多样性问题:盲点的成本超过bug

这个事件同样揭露了一个经典问题,即同质团队在高影响系统中共享假设。当共享假设时,他们也会共享优先级错误。

一个优秀的高管团队能够优化增长与减少摩擦,但仍然可能低估事件转变成监管风险的速度。同样,一个团队可能在研究方面表现出色,但在安全运营方面较弱,因为历史上这一职能被视为支持,而非支柱。

这里所需的多样性不仅仅是表面。更重要的是经验和判断的多样性,在定义伤害阈值、向当局升级和国际协调的桌子上。如果制定这些协议的人来自过于相似的背景,他们往往会在同一位置出错,认为系统“是可以解释的”,并且认为关闭一个账号“解决”了风险。

社会资本也在对抗中变得至关重要。在危机后,需要重新建立与当局的关系的公司要付出不小的信任成本。然而,当已经建立了基于相互价值的信任网络时——有明确的接触点、约定的期望以及响应能力——对话便会转变:从惩罚转向合作。

在这种情况下,OpenAI开始着手在加拿大建立这样的桥梁。值得看看他们是否将之转变为可复制的标准,还是仅仅作为受政治压力下的地理性补救措施。对于全球业务而言,本地补救措施的扩展效果往往不佳。

向市场传达的正确方向:安全作为产品和竞争优势

战略性阅读的最后一点是,此行业正在跨越一个门槛:聊天机器人不再是“友好的软件”,而是大规模人类互动的基础设施。因此,它们继承了现实世界的义务。报告可信威胁便是其中之一。

对于OpenAI来说,此调整能降低在加拿大的监管暴露,并增强未来事件的防御性,但也会增加运营成本和治理的复杂性。尽管如此,当产品已经嵌入教育、健康、企业,并间接影响关键人类决策时,不这样做的成本更高。

对其它市场参与者来说,这确立了一种期望:那些没有明确升级、检测逃避及与当局协调协议的供应商将无法获得严肃的合同,或者将以折扣和惩罚性条款进入市场。安全得到良好执行,便成为一种商业差异化。

对企业领导层的要求是明确且不容许浪漫化的:在下一次董事会会议上,观察自己的小团队,承认如果大家都如此相似,那么不可避免地会共享相同的盲点,这将使其成为破坏的即将受害者。

分享
0
为这篇文章投票!

评论

...

你可能还感兴趣