当AI成为基础设施：内容创作新时代

当人工智能不再是明星，而成为基础设施

有一个精确的时刻，一项技术不再是新奇之物，而开始成为工具。对于内容领域的生成式人工智能而言，这一时刻正在发生，而最清晰的信号并非来自硅谷的某个实验室，而是来自旧金山舞台上的三位创作者。

在由Magnific平台主办的2026年旧金山Upscale大会上，一位电视导演、一位EDM音乐人和一位动画角色设计师从截然不同的角度说出了基本相同的话：第一波生成式人工智能已经结束。那一波，也就是"输入提示词、获得内容"的时代，虽然有助于展示能力，但在创造持久价值方面却表现平平。接下来的事物更复杂、要求更高，对于那些真正理解技术如何在创意市场中被采用的人来说，也更加有趣。

高盛预测，全球创作者经济将在2027年接近4800亿美元，而2023年其发布这一估算时的基数约为2500亿美元。四年内增长90%，这无法仅凭网红积累粉丝来解释。真正的原因在于，内容生产的结构正在以比大多数组织所认识到的更为深刻的方式发生变化。

提示词魔法的问题所在

过去两年里，关于人工智能与创意的主流叙事始终围绕着"开箱即用"的产出：几秒钟生成的图像、从文字生成的视频、合成音乐。这是一个以输出为中心的叙事，聚焦于原始生产能力。问题在于，这一叙事混淆了生成速度与价值。

Noah Wagner是一位导演兼执行制片人，曾参与《西部世界》和《权力的游戏》等制作，目前在Echobend负责人工智能创新，他在大会上以临床般的精准表达了这一观点："你和你的合作者可以成为一个制片厂"。他说的不是人工智能可以成为一个制片厂，而是说配备了人工智能的人类创作者，可以以曾经需要整个团队才能实现的规模和灵活性进行运作。

这一区分至关重要，因为它转移了核心变量。如果人工智能是主要行为者，那么重要的就是你使用哪个模型、它有多少参数、哪家公司制造了它。但如果创作者仍然是主要行为者，那么重要的就是他的导演能力、他的审美判断、他对保留什么和舍弃什么的判断力。Wagner用一个项目来说明这一点：一只名叫Lord Queso的狗没有按照剧本的要求做动作。团队使用人工智能生成了缺失的镜头，并将其剪辑进成片。他对这种工作逻辑的描述，是我听过的关于人工智能如何在专业制作中运作的最诚实的表述："真实动作在中心，人工智能在边缘"。其中没有意识形态，只有制作上的实用主义。

这恰恰定义了严肃创意市场对生成式人工智能的实际需求：不是一个自主内容生成器，而是一层基础设施，在人类主导的工作流程中解决具体问题。许多在2023年和2024年"采用人工智能"的公司所犯的错误，是将其视为创意判断的替代品，而在它真正创造价值的案例中，它实际上是这种判断力的放大器。

大会甚至为另一个极端创造了一个术语："AI slop"（人工智能糟粕）——快速生成、毫不费力、毫无意图的内容。这次活动的论点是，将糟粕与严肃创意作品区分开来的，恰恰是：意图与努力。这不是道德论断，而是市场论断。受众和品牌会迅速对通用内容产生免疫。检测缺乏判断力的能力，与不加判断地生产内容的能力同步提升。

混音作为商业模式及其揭示的意义

Curt Cameruci，艺名Flosstradamus，带着一个表面上看似音乐人浪漫情怀、但实际上描述了相当精确的市场机制的论点登上了大会舞台。他从展示一台他15岁时获得的采样器开始。这个画面并非偶然。

他的论点是：所有创作者都是混音者。他们获取现有的文化元素，以新的方式将其组合，创造出之前不存在的东西。Roland 808、909和303并非为创造嘻哈、浩室或acid house而设计，它们最初另有用途。音乐人"误用"了它们，将其推向超出原始用途的极限，而这种滥用催生了整个流派，以及各自价值数十亿美元的经济体系。

Cameruci将这些机器与当今的生成模型直接连线。生成式人工智能同样不是为了创造未来的文化流派而设计的。但那些强迫它、以意想不到的方式将其与其他工具结合、将其带入训练范围之外领域的创作者，很可能正是定义下一个十年主导格式的人。

他将这片领地称为"潜空间"：那个混合体诞生的、已建立文化形式之间的地带。他自己的流派EDM trap，正是融合高能量合成器与嘻哈鼓机而涌现的。从人工智能的角度来说，他表示，肥沃的土壤在节点之间：在视觉与音乐之间、在文化遗产与合成物之间、在一个以六十年代数据训练的模型与一个以当代制作训练的模型之间。

他描述的具体商业应用是：使用语音克隆和多语言歌手将歌曲调整适配其他语言的受众，且在整个流程的每个步骤都有人工监督。这不是音乐人的轶事，而是人工智能本地化如何成为市场准入途径的操作性描述。ElevenLabs正是为那些希望向其他语言受众扩张、又不想支付传统本地化成本的创作者、品牌和制片厂构建了这样的模型。Spotify正在测试人工智能混音，让粉丝能够混音已获得艺人授权的歌曲，其明确目标是将这种互动转化为收入。

这对那些思考内容营销和分发的组织揭示了一件事：进入新语言市场的壁垒，主要已不再是预算问题，而是判断力问题。本地化技术已经可用，且成本持续下降。稀缺的是：在监督这一流程时具备足够的意图，使结果听起来不像是贴了人脸的机器翻译。率先理解这一点的品牌，将能够占领那些过去在财务上无法证明其合理性的地理市场。

速度提升五倍背后隐藏的代价

Momo Wang，Bunny Galaxy创始人、兔斯基角色的创作者，带来了三位嘉宾中最令人不安、也对任何计划将人工智能引入创意工作流程并期待自动效率的人来说最有价值的视角。

Wang在22平方米的空间里长大。她放弃油画，是因为材料太过昂贵。多年后，人工智能让她得以重返绘画，并开始以规模化的方式进行动画制作。她对这一过程的描述，有着田野观察般的密度："当工具变得易于获取且价格低廉时，没有人需要放弃自己的梦想"。这是一个民主化的论断，但有趣的不是这个宣言本身，而是Wang随后描述的内容：在实践中，用人工智能进行制作意味着什么。

一个传统的3D动画项目本需五到六年。借助人工智能驱动的工作流程，团队在大约一年内完成了它。这听起来是巨大的效率提升。但Wang对于哪些没有改变持坦率态度："你必须做出与以前同样多的创意决策，但同时你必须快五倍"。

这不是解脱，而是管理工作的密集化。人工智能并不消除决策，而是压缩了做出决策所需的时间，并倍增了需要施加判断力的变体数量。用操作术语来说：以前你有六年时间来解决角色一致性、运动逻辑、风格连贯性等问题，现在你只有一年。人工智能能更快地生成选项，但需要有良好判断力的人以同样的速度去评估、批准或否决这些选项。

Wang描述的应对这一问题的系统并非技术性的，而是创意治理层面的：带有颜色编码审批的审查系统、逐帧的角色一致性核查、风格测试、故事板、每个阶段的人工监督层。人工智能降低了尝试的成本，却提升了每次尝试的判断成本。Wang用另一种方式表达了这一点，当她描述人工智能无法处理具有独特特征的角色时会发生什么：喜剧动画开始看起来像恐怖片。模型在生成，但没有精确的人工导向，它向着错误的方向生成。

对于任何正在考虑"在创意领域实施人工智能"的公司来说，操作层面的结论是：回报不来自于自动化生产本身，而来自于拥有足够判断力来指导自动化生产的人。如果组织内部不具备这种判断力，增加人工智能工具只会加速平庸内容的生产。

Wang以一个观察作结，这个观察最能概括为什么"人工智能取代创作者"的叙事仍然是错误的："人们不投资于技术，他们投资于他们所相信的世界。你的生活、你的视角、你的故事。这是任何工具都无法生成、任何提示词都无法替代的东西"。这不是浪漫的宣言，而是对受众在消费创意内容时所购买的东西的描述。他们购买的不是渲染质量，而是共鸣、视角，以及背后曾有人有话要说的证明。

当所有人都能生产时，最稀缺的资产是什么

狮门影业于2024年宣布与Runway结成联盟，以构建一个在其专有电影和电视库上训练的人工智能模型。官方声明的目标是支持前期制作和后期制作。隐含的目标则更为宽广：将现有的片库转化为用于特许经营开发、营销和项目快速可视化的生成基础设施。

这颠倒了文化借鉴的方向。多年来，独立创作者仰望好莱坞来理解制作标准。现在，制片厂正在关注小团队的工作流程——这些小团队测试快速、以更低成本进行迭代，并在投入大预算之前就获取受众信号。

这种模式并不新鲜。DSLR相机革命中出现过，它让独立电影人得以在视觉质量上与更大规模的制作竞争。TikTok中也出现过，它证明了原生数字短视频格式能够捕捉传统新闻频道和广播网络正在失去的注意力。每次生产壁垒下降，保持稀缺的资产便不再是生产能力本身，而是生产出有意义内容的能力。

这一周期的不同之处在于壁垒下降的速度，以及在壁垒下降过程中生成内容的体量。如果在YouTube周期中，市场花了好几年才被平庸内容饱和，过滤和区分机制才开始涌现，那么在生成式人工智能周期中，这一过程可能会被压缩至数月之内。平台、广告主和受众将更快地形成区分标准，因为体量带来的压力更大。

对营销团队而言，这有一个直接的含义：通过判断力质量而非生产能力来实现差异化的窗口期，比看起来更短。那些今天正在投资于学习如何以精确意图来驾驭人工智能的组织，正在构建一种竞争优势——当所有竞争对手都能获得相同工具时，这种优势将难以复制。而那些主要利用人工智能来加快生产速度、却未提升创意决策质量的组织，正在加速驶向缺乏判断力的内容一贯会撞上的那堵墙：市场的冷漠。

Upscale大会的三位创作者，各自从不同的角落所描述的，是一次相变。人工智能已从对话的主题，转变为对话赖以发生的基础设施。在这一转变中，将捕获价值者与仅生产体量者区分开来的，恰恰是始终将优秀导演与平庸导演区分开来的东西：知道该包含什么、该舍弃什么，以及为什么。