阿里巴巴投资2.9亿美元,押注人工智能未来不再依赖文本

阿里巴巴投资2.9亿美元,押注人工智能未来不再依赖文本

大型语言模型面临物理极限,阿里巴巴正投资未来的基础设施。

Elena CostaElena Costa2026年4月10日7 分钟
分享

阿里巴巴投资2.9亿美元,押注人工智能未来不再依赖文本

2026年4月初,阿里巴巴云主导了一轮融资,为中国初创公司盛数据(ShengShu Technology)筹集了20亿元人民币(约合2.9亿美元)。盛数据成立仅三年,主要以其人工智能视频生成器Vidu而闻名。此次融资还包括了TAL教育和百度创投的参与。值得注意的并非融资金额,尽管该金额相当可观——盛数据在仅仅两个月前就已筹集了近8800万美元。重要的是,这笔资金的用途。

该资金的明确目的并不是为了改善Vidu或扩大其视频业务,而是为了构建一个通用世界模型,通过多模态数据(包括视觉、音频和触觉)进行训练,直接应用于物理机器人和自动驾驶技术。实际上,盛数据的目标是让人工智能学习如何与世界的物理特性进行交互,而不仅仅是处理文本序列。

这样的区分比标题上所表现的价值更大。

为什么语言模型单独无法到达目标

大型语言模型在其专业领域内表现非常出色:符号推理、文本生成、信息综合。然而,它们存在一项结构性限制:不能普遍适用于闭合回路的物理环境。一个需要精确校准以支持脆弱物体的机器人的操作,无法依赖于有关token序列的统计概率。它必须“看到”该物体在不同光照、质地和温度下的数千次迭代。用技术术语来说,需要一个世界模型。

这并非猜测,而是当前制约物理自主机器人大规模部署的瓶颈。那些试图在制造、物流或医疗保健领域扩展机器人的公司会发现,尽管其语言模型精细化程度很高,但在将行为从数字仿真转移到现实环境时仍然无法应对。工业界对此现象称为sim-to-real gap(仿真与现实之间的差距),即模型在仿真环境中学习到的内容与其在真实世界中执行的内容之间的差距。

盛数据正在构建正是为了缩小这一差距的基础设施。而阿里巴巴为此买单。

从技术发展的6D视角来看,此举标志着一种技术从经历多年的数字化和失望阶段(承诺往往超越实际应用)向实质性行业颠覆的阶段转变。颠覆并不会通过更精炼的文本实现,而是通过更精确的仿真实现。

投资背后的算术

在短短两个月内盛数据累计融资的规模——近3.8亿美元,绝非偶然。它反映了构建大规模世界模型所需的经济学。

在这类项目中,最耗费的支出类别有三项:多模态数据的大规模收集(视频、传感器、音频、触觉),用于生成高保真合成数据的平台开发,以及用于训练处理各种信号异质性的模型的计算基础设施。这三类支出均不便宜,并且没有一项是线性增长的。

对于阿里巴巴云而言,其战略计算与盛数据不同。云端需要高计算价值的垂直市场来证明其基础设施的合理性。通用世界模型由于其对持续训练、仿真和实时推理的需求,正是将闲置的云端能力转化为持续收入的工作负载。阿里巴巴对盛数据的投资不仅仅是一项财务冒险,更是在为其平台创造稳定的需求。

这一模式与阿里巴巴最近的其他举动一致:如HappyHorse 1.0的推出——其视频生成模型在2026年4月的Artificial Analysis全球排名中名列前茅,以及RynnBrain,其在机器人领域用于对象映射的工具。阿里巴巴并不是在进行单一的投资;它正在构建统一商业架构中的多个层次,其中云计算、内部模型和参与的初创企业相互加强。

2026年4月10日,阿里巴巴在香港的股票因HappyHorse的确认而上涨2.12%,当日科技板块的涨幅已达6.75%。市场正在解读出相同的模式。

当视频不再仅仅是娱乐,而成为工业数据

有一个值得注意的概念转变,因为它对任何考虑人工智能作为生产力工具的公司都有影响:生成性视频已不再是消费产品,而成为物理系统训练的数据来源。

盛数据的Vidu并非公司的最终目标。它是收集视觉数据的机制,这些数据将为世界模型提供支持。每一个生成的视频、每一次用户互动、每一场景变化,在盛数据的逻辑中,都是关于视觉世界如何表现的数据点。这一数据仓库,经过数以千万计的交互扩展,成为训练系统的基础,后者最终需要理解物理因果关系,而不仅仅是统计相关性。

这一逻辑与历史上有直接的对比:谷歌并不是为了售卖街道照片而构建街景(Street View)。它构建这个系统是为了训练视觉识别系统,这些系统如今从地图到自动驾驶项目的传感器。盛数据正在做类似的结构性工作:利用消费级产品作为数据积累机制,以应用于更高价值的工业领域。

对任何在制造、物流、医疗或移动领域运营的公司高层管理者而言,信息明确:目前控制高质量、多模态数据仓库存的公司——现实物理环境中的视频、传感器、音频——拥有一种无法轻易在数据市场上购买的优势。积累是至关重要的,现在在通用世界模型成熟之前。

变革已经开始,文本只是第一步

阿里巴巴、盛数据、字节跳动以及越来越多的中外参与者正在竞争一场大奖赛,奖品并非最佳的聊天机器人。奖品是控制连接数字世界与物理世界的智能层:工业机器人、自动驾驶汽车、自适应制造系统。

语言模型让人们平等地获得了符号推理的能力。这是第一步。如果通用世界模型达到这项投资所假设的技术成熟,它将让人们平等获得物理推理能力:自主系统在变化环境中独立决策的能力,而无需持续人类干预。这样的转变决定了哪些公司和行业能够控制自身的生产过程,以及哪些将把控制权交给拥有智能基础设施的参与者。

阿里巴巴对盛数据的投资标志着在机器人和物理工业领域颠覆阶段的开始。它不是通过成熟产品来实现的,而是通过行业中最稀缺的数据来实现:以足够的保真度模拟世界的能力,以训练后续在其中运作的系统。这一能力一旦巩固,不仅不会让一个行业失去价值,还会重新定义谁有权对推动事物运行的智能收费。

分享
0
为这篇文章投票!

评论

...

你可能还感兴趣