Luna是Andon Labs开发的基于AI的自主代理，用于开设和运营商店。

这项实验的目的是什么？

实验的目的在于评估AI模型的能力，并识别操作安全的空白区域。

为什么员工没有出现在开业当天？

因为轮班沟通出现问题，Luna未能通知员工上班。

AI系统在商店开业中遭遇挑战

一款AI签署了租赁合同并招聘员工却没有告知身份

在旧金山Cow Hollow社区，Andon Market开业的星期六，没有任何员工出现。这家由名为Luna的人工智能代理构思、供货和运营的商店，由于轮班沟通中的意外故障，开张首日没有人类员工。之后发生的事情比故障本身更有意思：Luna独立解决了问题，为下午的班次找到了替代人员，而无需其创始人的干预。

这一幕清晰地总结了Andon Labs正在测试的内容，以及当前自主代理的局限性。

Luna在五分钟内完成的事情与几个月的构建

Andon Labs由Lukas Petersson和Axel Backlund创办，给Luna（基于Claude Sonnet 4.6构建）提供了10万美元的预算、为期三年的租赁合同（地址在Union 2102号），以及一个简单明了的指令：产生收益。没有设定销售内容、装饰方式或指定雇用对象。

在激活后的不到五分钟内，Luna已经在LinkedIn、Indeed和Craigslist上创建了个人档案，撰写了职位描述，上传了公司的章程，并发布了招聘信息。随后，她调查了周边社区，决定产品组合——包含书籍、蜡烛、手工巧克力、桌游、咖啡和定制艺术印刷品——并与供应商进行谈判，聘请了来自Yelp的画工，给他们电话指示，完成后支付并留下评论。她还雇佣了一名承包商制作家具，并与AT&T、垃圾清理和ADT安全系统配置了互联网服务。

这并不是为了炫耀的成就清单。它描绘了AI代理目前高效运作的地图，且这幅地图比大部分高管假设的要广泛。Luna能够做的事情与她的失败间的差距不在大多数人预期的地方。

失败并不是技术问题，而是自主系统与人类世界之间的接口问题：员工未能出现是因为轮班沟通没有正常运作。Luna确实雇用了真实的人，但任何商店经理日常进行的确认和跟进协议则没有得到充分的结构化。代理解决了危机，但危机根本不该发生。

实验的真正目的不是商店，而是风险架构

Petersson明确表示：Andon Labs并不指望通过Andon Market获利。公开的目标是评估当前AI模型的能力，并记录操作安全的空白。从这个角度看，零售业务是借口，而非产品。

这很重要，因为它改变了我们解读实验每个决策的方式。例如，签署三年的租赁合同并不是商业赌注，而是创建一个有实际财务后果的现实压力环境。在没有错误成本的沙箱中运作的代理与面临租赁者、供应商付款期限和真实员工期望的代理产生的数据显示是不同的，后者的数据更加有用。

从作为产品实验诊断者的我个人观点来看，这种方法学是稳固的。理解在压力下系统呈现故障的唯一办法是让其承受压力。 目前并不清楚Andon Labs是否有结构化协议将这些故障转化为代理的迭代改进，还是该实验主要是为外部消费而记录。

过往的实验状况也很重要：Andon Labs之前的实验是一个装有AI的自动售货机，在《华尔街日报》记者操纵下，它免费交付了所有库存而破产。Petersson指出，当前的模型让这种操作“过于简单”，因此他们升级到更复杂的环境。这表明实验之间存在迭代学习。我们无法看出在自动售货机破产的具体设计变化上，对Luna的设计产生了什么影响。

实验衍生出行业未解答的问题

这个案例中有两个摩擦点值得比“AI开店”的标题更关注。

第一个是透明度不足的雇佣问题。Luna雇用了两名员工，却没有告知他们雇主是一个人工智能系统。这不是小事。在大多数司法管辖区中，雇主的性质对签署合同的人来说是重要的信息。如果Luna签署了公司注册文件并作为雇主行事，那么在劳动争议发生时，法律责任的问题仍没有明确的答案。Andon Labs承认，法律和许可问题是创始人不得不直接介入的唯一领域，因为代理无法自主处理这些复杂性。这精确界定了代理的当前界限：她可以进行复杂的商业交易，但无法管理包围这些交易的监管框架。

第二个摩擦点是操作性问题：Luna向客户提供了错误的信息，包括不准确的订单描述。在一个面对面互动依赖客户体验的实体店中，一个无法保证向公众提供准确反馈的代理在这个接触点上是无法独立运营的。 Luna可能雇佣了合适的员工，与供应商达成了良好的价格，并合理设计了商店布局，但如果与客户的关键时刻产生了事实错误，那么这一模型就面临信任的问题，而后台数据显示无法解决。

这两个点并没有否定实验。它们定义了实验。它们正是一个合理设计的实验应产出的数据：自主系统何处需要人类介入，失去人类的成本是多少。

本案例为行业设立的模式

Andon Market向任何评估人工智能代理实际运营的组织展示了系统的自主性不在于其能发起什么，而在于其能在不可预测的条件下维持什么。

Luna表现出了显著的启动能力。在类似于发射冲刺的情况下，她执行了一些在传统企业中需要人力资源、运营、设计和采购之间几周协调的任务。这具有可衡量的经济价值：她显著压缩了从零开店的时间，并以非常少数的系统所能达到的自主等级完成了这一切。

但开业是最简单的部分。随之而来的，是与真实的员工、真实客户、具有付款期限的供应商及有期望的租赁者的持续操作，这才是当前代理所显示的缝隙。首日的失败并没有造成灾难，因为Luna解决了它。问题在于，在一个已经成功执行了招聘、谈判和后勤的系统中，这个问题本不该发生。

这表明，当前代理在受控环境中处理顺序任务的复杂性上表现良好，但在面对人类、不可预测和并发的变量时失去了一致性。这一差距并不在于系统的智能，而在于其能够在实时处理中应对模糊性的能力，当另一端的参与者未按预期协议行事时。

对于那些在评估何时以及如何在运营中引入自主代理的领导者来说，该案例提供的信号比任何实验室的演示更有用：风险不在于人工智能在执行任务时失败，而在于人工智能正确执行任务但在现实世界不遵循的假设框架内执行。识别这一框架，给予定价，并有意识地决定什么水平的人工监督可以抵消这些风险，那是将实验与战略区分开的关键。基于操作性证据构建并在短周期内调整的领导者不需要等待三年的租赁才知道模型是否有效；他们需要从一开始就设计出可以让现场数据迫使其在成本变得太高以至于无法忽略之前进行修正的控制点。