100 bilhões de tokens: o que o CFO não sabe

Cem bilhões de tokens e nenhum CFO sabe o que comprou

Sam Altman subiu ao palco do evento empresarial da OpenAI em 2 de junho de 2026 com uma estatística projetada para impressionar: o maior consumidor interno de tokens da sua empresa processa cerca de 100 bilhões de tokens por mês. A plateia reagiu como esperado. Em seguida, Altman acrescentou, quase de passagem, que esse número não é o recorde mundial, porque alguém fora da OpenAI consome ainda mais. E ali, sem se propor totalmente a isso, ele descreveu com precisão o problema que está fraturando a economia da inteligência artificial em escala corporativa: o consumo cresceu tão rápido que superou tanto a imaginação de quem vende o produto quanto a capacidade de orçamentação de quem o compra.

O que veio depois do dado foi mais revelador do que o dado em si. Altman admitiu que os custos são agora a segunda queixa mais frequente dos clientes empresariais da OpenAI. E descreveu um meme que circula entre executivos corporativos com mais precisão diagnóstica do que qualquer relatório de analistas: "A empresa gastou todo o orçamento de 2026 no primeiro trimestre. Vocês conseguem torná-lo mais eficiente?" A pergunta dentro do meme não é retórica. É o novo estado de situação de dezenas de organizações que entraram no ano com premissas de gasto baseadas em padrões de 2025 e se depararam com o fato de que os modelos agênticos consomem em uma velocidade diferente.

Há seis anos e meio, o usuário mais ativo da OpenAI processava aproximadamente 100.000 tokens por mês. Hoje, esse número é a média mundial por pessoa. O usuário interno mais ativo da empresa consome um milhão de vezes mais do que aquele recorde histórico. Altman projeta que essa expansão se repetirá. Se isso acontecer, a infraestrutura de inteligência artificial que existe hoje seria para o mercado futuro o que uma calculadora de bolso é para um centro de dados. Mas entre essa projeção e a realidade operativa dos compradores corporativos há uma lacuna que nenhum slide de crescimento exponencial resolve sozinho.

O orçamento como primeiro indicador de maturidade tecnológica

Existe um padrão na história da tecnologia empresarial que se repete com consistência suficiente para ser usado como referencial: toda vez que uma tecnologia passa de ferramenta experimental a gasto operacional de linha, o departamento financeiro entra na conversa e muda as regras. Com o software em nuvem isso aconteceu em meados da década de 2010. Com os dados e a análise avançada, aconteceu depois. Com a inteligência artificial agêntica, está acontecendo agora, em 2026, com uma velocidade que pegou desprevenidos os próprios executivos das empresas mais sofisticadas do planeta.

A Uber é o caso mais documentado. Conforme reportado, a empresa esgotou seu orçamento de inteligência artificial para todo o ano de 2026 em quatro meses. A resposta operacional foi imediata: um teto de 1.500 dólares mensais por funcionário para ferramentas de programação agêntica, incluindo Claude Code e Cursor. Mas a declaração mais significativa não veio do CEO, mas do COO, Andrew Macdonald, que disse publicamente que a Uber não consegue traçar uma linha direta entre esse gasto crescente em tokens e melhorias concretas para os usuários finais, nem para motoristas nem para passageiros. Essa frase é, em termos de arquitetura de valor, um sinal de alarme de primeira ordem. Não porque o gasto seja ruim, mas porque indica que o ciclo de retroalimentação entre investimento e resultado ainda não está fechado.

A Microsoft cancelou a maioria de suas licenças internas do Claude Code antes de meados de maio e redirecionou seus engenheiros para o GitHub Copilot CLI antes do encerramento do ano fiscal em 30 de junho. A leitura superficial é que a Microsoft prefere seu próprio produto. A leitura mais precisa é que a Microsoft também enfrentou estouro orçamentário em ferramentas de inteligência artificial e escolheu consolidar os gastos dentro do seu próprio perímetro antes que o problema escalasse. A Amazon eliminou sua tabela de classificação interna de consumo de tokens depois que um executivo sênior instruiu a equipe a parar de usar inteligência artificial pelo simples ato de usá-la. O Walmart, que havia oferecido tokens ilimitados a seus funcionários para o agente de inteligência artificial interno, também impôs limites.

O padrão não é coincidência nem pânico financeiro isolado. É o sinal de que o setor corporativo acaba de cruzar o limiar onde a inteligência artificial deixou de ser um projeto piloto com orçamento de inovação e se tornou um gasto operacional que compete com outros gastos operacionais por justificativa de retorno.

O que o consumo de tokens revela sobre a distribuição de valor

Por trás dos números de consumo há uma estrutura econômica que merece ser examinada com precisão. Cada token consumido é receita para a OpenAI ou para a Anthropic, demanda de computação para os provedores de nuvem e justificativa de investimento em infraestrutura de chips. Sob esse ângulo, o crescimento de um milhão de vezes em seis anos e meio é exatamente a narrativa que sustenta as avaliações das empresas de infraestrutura e a lógica dos grandes contratos de centros de dados.

Mas essa mesma estrutura tem uma distribuição assimétrica que os números de consumo não capturam. As empresas que pagam pelos tokens — Uber, Microsoft, Amazon, Walmart — estão assumindo os custos operacionais do crescimento, enquanto a captura de valor em termos de margens, propriedade intelectual sobre os modelos e poder de fixação de preços se concentra nos provedores de modelos. Essa assimetria não é necessariamente injusta em termos de mercado, mas tem consequências estruturais para a sustentabilidade do modelo de adoção massiva.

Quando o COO da Uber diz que não consegue conectar o gasto em tokens com melhorias de produto, ele está descrevendo um problema de retorno sobre investimento que, se persistir, não se resolve com mais tokens, mas com uma renegociação da arquitetura completa do gasto. O fato de que a Anthropic superou a OpenAI em gasto corporativo empresarial, segundo o próprio Altman, adiciona outra camada a essa análise. Significa que a concorrência entre modelos está gerando uma proliferação de plataformas que as equipes de engenharia adotam em paralelo, o que multiplica os custos sem necessariamente multiplicar os resultados. A consolidação que a Microsoft está executando internamente — forçar o uso de uma única ferramenta — é uma resposta racional a esse problema, ainda que venha embrulhada em retórica de preferência de produto.

O caso de Peter Steinberger, desenvolvedor externo que, segundo os relatos, consumiu 603 bilhões de tokens em 30 dias, e o funcionário da OpenAI que teria usado 210 bilhões de tokens em uma única semana, ilustra algo diferente, mas relacionado. Quando o consumo individual supera em vários ordens de grandeza a média global, o modelo de preços fixos ou semicerrados começa a gerar subsídios cruzados que não aparecem em nenhum balanço, mas que distorcem a economia do serviço. Nem todos os tokens têm o mesmo custo de produção nem o mesmo valor para quem os consome.

A conta que não fecha no modelo de adoção massiva

A narrativa dominante no setor desde 2023 foi a da adoção sem fricção: dar acesso amplo, eliminar barreiras de preço, escalar o consumo e capturar valor mais tarde por meio de dependência, dados e efeitos de rede. Esse manual funcionou para construir bases de usuários massivas. O problema é que no segmento empresarial, a "dependência" tem um contrapeso que no consumidor individual não existe com a mesma intensidade: um CFO e um ciclo orçamentário anual.

Altman descreveu a mudança de atitude como algo que chegou "de repente". No início de 2026, segundo suas próprias palavras, a ninguém importavam os custos. Todos estavam satisfeitos com seu nível de gasto. Essa descrição, dita pelo CEO da empresa mais valiosa do setor de inteligência artificial, é em si mesma um diagnóstico de como a etapa de adoção foi estruturada: sem que os compradores tivessem clareza sobre a curva de custos que estavam aceitando implicitamente ao escalar o uso agêntico.

Os modelos agênticos, ao contrário dos chatbots de consulta pontual, têm uma característica que os torna estruturalmente custosos em escala: eles executam tarefas em cadeia, o que significa que cada etapa do processo consome tokens, incluindo as etapas intermediárias de raciocínio, verificação e correção de erros. Uma tarefa que um ser humano resolve com uma decisão pode exigir dezenas de chamadas ao modelo antes de produzir um resultado. Esse multiplicador não era evidente nos pilotos com uso moderado. Tornou-se visível quando as empresas implantaram essas ferramentas em escala de centenas ou milhares de funcionários simultaneamente.

O resultado é uma lacuna entre o valor percebido durante a etapa experimental e o custo real durante a etapa operacional. E essa lacuna não se fecha com melhorias de eficiência marginal. Requer ou modelos de preços radicalmente diferentes, ou uma revisão profunda de quais tarefas merecem ser resolvidas com agentes de inteligência artificial e quais se resolvem de forma mais barata com processos mais simples.

O próximo ciclo não será ganho por quem vender mais tokens

A conclusão mais direta que emerge das declarações de Altman e do comportamento simultâneo das maiores empresas do mundo é que o setor de inteligência artificial empresarial está entrando em sua segunda fase. A primeira fase foi de adoção por entusiasmo, com orçamentos de inovação e alta tolerância à incerteza sobre o retorno. A segunda fase é de adoção por justificativa, onde o gasto em inteligência artificial compete na mesma mesa que o gasto em infraestrutura, pessoal e operações, e precisa demonstrar o mesmo tipo de retorno mensurável.

Essa transição não é negativa para o setor. Mas muda quem ganha dentro dele. Na primeira fase, ganharam os que ofereciam o modelo mais capaz e a experiência mais fluida. Na segunda fase, ganharão os que puderem demonstrar com precisão quanto custa cada resultado e quanto ele vale. Isso favorece os provedores que desenvolvam ferramentas de observabilidade, controle de custos e atribuição de resultados — não apenas os que escalem a capacidade bruta do modelo.

Altman projeta outro crescimento de um milhão de vezes no consumo de tokens. Se esse crescimento se materializar sem que a estrutura de custos se torne mais transparente e controlável para os compradores, o que ocorrerá não será uma expansão sustentada do mercado, mas uma série de correções orçamentárias que fragmentarão a adoção. O meme corporativo que ele mesmo citou — o orçamento anual consumido no primeiro trimestre — não é uma anedota simpática. É a descrição precisa do limite estrutural do modelo atual de monetização por volume de tokens, que cresce em receita para os vendedores exatamente na proporção em que gera pressão insustentável para os compradores.

A arquitetura que permita que ambas as curvas coexistam sem que uma cancele a outra ainda não existe com clareza. Enquanto não existir, cada recorde de consumo de tokens será simultaneamente uma boa notícia para a infraestrutura e um sinal de alerta para a continuidade do gasto corporativo que a financia.