什么是PowerInfer-2？

PowerInfer-2是一种通过协调CPU和NPU资源，提升手机推理能力的技术方案。

PowerInfer-2相比于传统方案有何优势？

相比于传统方案，PowerInfer-2可实现高达29.2倍的加速，以及每秒11.68个令牌的处理能力。

TurboSparse在移动推理中起什么作用？

TurboSparse提供了更有效的稀疏模型结构，以支持在移动设备上高效推理。

移动推理的竞争：价值链的关键所在

移动推理的竞争：更少 I/O 和高效的价值链分配是关键

人工智能在手机上的应用总是遇到一个现实的限制：模型过大，内存不足，存储速度慢，以及能耗高影响用户体验。因此，多年来，移动端的“本地处理”讨论主要依靠小型模型，并作出很多妥协。

PowerInfer-2的推出打破了这一界限，提出了一个具体的解决方案：在设备内存不足的情况下，协调CPU、NPU和存储的使用，消除性能瓶颈。根据评估，该系统相比于传统方案（如llama.cpp和MLC-LLM）提供了高达29.2倍的加速，能够在手机上实现每秒11.68个令牌的处理速度，这一成绩曾经只是营销的宣传，现如今成为可验证的工程事实。这一突破的背后，与2024年6月11日的开源发布密切相关，并通过与TurboSparse（Mistral和Mixtral的稀疏版本）整合而闻名。

这个数据单独来看是一个技术胜利，但对于业务的相关意义则在于它所带来的价值再分配：当边缘设备的令牌服务边际成本下降时，定价、云服务的依赖、产品控制以及制造商、框架开发者、模型所有者和应用创建者之间的谈判能力都将重新定义。

真正的创新在于物流：减少数据传输，提高体验收费

这里最重要的数字往往被隐藏在“优化”这个词背后。PowerInfer-2作为一个框架，通过两个操作思路提供超越手机内存限制的LLM支持：意识到稀疏性的适应和意识到I/O的编排。简单来说，该系统试图让硬件处理有用的工作，同时在存储中补充所需的数据，进而减少提取存储内容的数量。

在测试中，PowerInfer-2在一台OnePlus 12（24GB的DRAM和高通XPU）上表现出与llama.cpp相比平均24.6倍的加速，峰值达到27.8倍，并且在对比LLMFlash等卸载方案时，更是表现出3.84倍的平均加速及高达4.63倍的优势。在适合内存的7B模型中，该系统声称利用率降低了近40%，而速度则与llama.cpp和MLC-LLM相当。所有这一切都旨在实现实时、本地和私密的推理目标。

与TurboSparse的整合又增加了一个层面：如果模型的激活结构不可预测，即使有先进的运行时也无济于事。TurboSparse承诺提供更“友好”的稀疏性，以便高效执行，并被宣传为在PowerInfer-2下为Mixtral带来高达22倍的速度提升，经过1500亿令牌的稀疏训练，并报告成本为10万美元。这是一个经济上的重要细节：将大型模型部署的成本可能低于在云端进行大规模推理的年成本，这将改变产品团队的投资计算。

在价值链方面，简单的观点是：性能的提升来自于较少的内部流量，以及在异构单元之间更好的负载分配。如果最终产品带来流畅的体验，捕获价值的企业将是能够将这种物流转化为稳定集成的企业：一致的响应时间、更低的能耗、较少的过热现象，以及在不同负载下的可预测行为。

价值分配的变化：云服务、制造商、框架和应用争夺利润

当一部手机在47B模型中每秒接近双位数的令牌生成速率时，讨论将不再是“是否可能”，而将转向“谁能收取什么费用”。在一个被AI API主导的世界里，许多应用的最终价格与令牌成本以及操作依赖性密切相关：延迟、可靠性和与敏感数据相关的监管风险。如果部分需求迁移到设备上，应用供应商的令牌变量成本可能会骤然下降，但这仅在堆栈无摩擦集成的情况下才会发生。

这为价值捕获打开了四个位置：

1) 设备和硅片制造商。如果PowerInfer-2能更好地发掘异构XPU（CPU+NPU）的性能，并证明16到24GB的DRAM能启用以前仅限于云的体验，制造商可以为硬件定价附加溢价，或区分其产品线。但这种溢价如果不能转化为用户的实际体验，而只是停留在规格表上，便难以维持。

2) 推理框架。强大的开源运行时将成为事实标准，推动权力向控制兼容性、工具链及社区的人倾斜。这个权力不一定通过许可方式变现，而是通过对集成、支持、模型分发的影响力，以及降低第三方的采纳成本寻求盈利。

3) 模型所有者。TurboSparse提供了一条途径：采用现有架构，使其在移动端更“可执行”。如果稀疏化的成本相对于大规模分发的价值较低，模型所有者可以扩展其覆盖范围，而无需为云推理买单。然而，如果模型变成一种本地商品，互换且没有锁定效应，模型所有者的可捕获价值将减少。

4) 应用程序。应用程序离用户最近，能够直接按结果收费。如果应用程序能将本地推理转化为实实在在的优势（如隐私、离线可用性、低延迟），其毛利将增加，因为其降低了变量成本。然而，如果这一毛利依赖的优化对多种设备无法稳定支持，则其性命将脆弱。

价值瓜分的风险出现在某个参与者试图独占所有收益时。如果制造商封锁或限制堆栈，便会提高应用创新的成本。如果框架优化仅适用于一小部分硬件，将排除用户并缩减市场。如果模型的拥有者试图限制访问或强制收费，将激励使用开放替代品。可持续的策略是让每个参与者都有明确的经济理由留存：降低应用的成本，实现硬件的差异化，并为模型提供分发通道。

从展示到商业：移动限制迫使联盟，而非掠夺

PowerInfer-2的突破并非在理想实验室中产生，而是在一个恶劣环境中：UFS存储具有惩罚性的延迟、内存受限以及不同特征的计算单元。所引用的技术方案——通过在“神经元集群”级别分割计算，让NPU处理密集计算，CPU处理稀疏计算，并将计算与I/O重叠——本质上是为内部物流链设计的一种操作模式。这种创新，如果运作成功，将成为一种隐形基础设施。

但只有当系统可以不重写产品地进行采纳时，隐形基础设施才会创造商业价值。因此，战略性的向量不仅仅是“更快”，而是“更容易集成”：驱动程序的稳定性、模型间的可移植性、量化与打包流程的兼容性，以及在异构安装基础上的一致性能。

此时，行业通常面临的诱惑是将成本推向最弱的一环。在移动端，通常是应用开发者：他们被要求为每种设备优化，处理碎片化，并接受最终体验可能存在差异的现实。这种模式是对创新的税收，最终会缩小市场规模。

PowerInfer-2提议的方案，因其作为开源发布，并配备了公共库中的模型（如报道所示），旨在实现更务实的价值分配：重投入的工程成本集中在一个通用的运行时及高效执行准备中的模型上。如果能够维持，这样受益的不仅仅是高端手机，还有能够构建用户体验而无需默认支付云服务费用的产品层。

尽管如此，仍然存在一个盲点：经济可持续性维护。如果社区未能吸收这一成本，某种人将以另一种捕获形式来承担：企业支持、与制造商的协议或优先集成。价值分配的稳定性依赖于该“固定成本”能找到资金来源，而不会将堆栈变成收费站。

价值向控制本地体验的人转移，而不打破激励

在智能手机上以每秒11.68个令牌的速度处理47B模型，最具颠覆性的一点并不是数字，而是商业架构的变化：一部分本需依赖云的计算能力，转变为分布在数百万设备上的能力。这并不消除云的存在，但重新定义了其角色：推理的交易性降低，而训练、协调、更新和附加服务的需求上升。

对于企业高管而言，实际的理解是对“设计利润”的重新评估。如果一个应用通过将推理迁移到设备上减少了令牌账单，则可以将这些利润再投资于用户获取、内容、支持或用户价格。如果制造商能将本地推理转化为真实的购买理由，则能在平均售价中捕获价值，但前提是不要窒息创造体验的人。如果一个框架成为主导通道，则以标准和采用流的形式捕获价值，而其权力的维持在于是否降低第三方的成本。

对TurboSparse Mobile覆盖的总结隐含了一种论点：当稀疏性可预测且NPU、CPU与存储之间的编排精巧时，“手机只能使用小型模型”的限制不再是物理定律。由此，真正的竞争转向产品设计与技术链治理。

战略上的决策将赢家与投机者区分开来：那些能分享本地推理收益的参与者——降低应用成本、改善用户体验、实现硬件差异化及为模型提供分发通道——将会建立持久的竞争优势；而那些试图捕获所有利润的参与者，将把技术改进变为新的摩擦，而这种类型的优势在下一个开放运行时出现时便会消失。