Agentes de IA e Perdas Financeiras: impacto e soluções

O erro que custa R$ 67,4 bilhões ao ano

Há uma diferença crítica entre um chatbot que inventa a biografia de um político e um agente de IA que executa uma ordem de compra com base em dados falsos. No primeiro caso, o dano é reputacional e reversível. No segundo, o dinheiro já saiu da conta.

Isso é exatamente o que está acontecendo. Segundo um estudo da AllAboutAI citado na Fortune, as perdas globais decorrentes de alucinações da inteligência artificial alcançaram R$ 67,4 bilhões em 2024. Não se trata de uma projeção teórica ou um cenário de risco para o futuro: é o custo já contabilizado de decisões tomadas com base em informações falsas geradas por modelos de linguagem. A Forrester Research acrescenta outra camada: cada funcionário de uma empresa incorre em aproximadamente R$ 14,2 mil anuais em tempo e recursos dedicados a verificar, corrigir ou desfazer o que a IA produziu incorretamente.

O problema não é novo, mas é qualitativamente distinto agora que os sistemas de IA passaram de responder perguntas a executar ações. Um modelo de linguagem que alucina em uma conversa é um assistente pouco confiável. Um agente autônomo que alucina enquanto gerencia posições em mercados financeiros é uma fonte de perdas operacionais diretas, com consequências regulatórias e reputacionais que nenhuma diretoria pode ignorar.

A taxa de alucinação em consultas financeiras chega a 41%, segundo dados da Aveni.ai coletados pela Fortune. Para contextualizar essa cifra: se um analista humano júnior cometesse erros em quatro de cada dez análises, não superaria o primeiro trimestre de trabalho. Os agentes de IA, no entanto, operam em uma escala e velocidade que nenhum humano pode supervisionar em tempo real, o que torna cada erro um evento sistêmico potencial.

Por que o problema é de arquitetura, não de versões

A resposta institucional reflete a seriedade do momento. Pesquisadores da Google DeepMind, Microsoft, Columbia University e t54 Labs estão trabalhando no que a Fortune descreve como uma "rede de segurança financeira" em torno dos agentes autônomos de IA. O objetivo é criar protocolos que interceptem as alucinações antes que se transformem em transações reais.

O que torna relevante essa iniciativa não é o nome das instituições envolvidas, mas o diagnóstico implícito que contém: o problema não se resolve com uma versão melhor do modelo. Resolve-se com uma camada de governança externa ao modelo.

Essa distinção importa estrategicamente. Nos últimos três anos, a indústria operou sob o pressuposto de que mais parâmetros, mais dados de treinamento e melhores instruções reduzirão as alucinações até torná-las desprezíveis. Os dados de mercado contradizem essa narrativa. Um estudo publicado no arxiv.org avaliou 17 modelos de IA sobre 178 tarefas em mercados de criptomoedas: sem ferramentas auxiliares, os modelos alcançaram 28% de precisão, em contraste com os 80% que analistas humanos demonstram nas mesmas tarefas. Com ferramentas, o desempenho subiu para 67,4%, mas com um defeito estrutural: os modelos tendiam a priorizar buscas na web de baixa qualidade em vez de fontes autorizadas. O problema não era a capacidade de raciocínio do modelo; era seu critério para selecionar informações.

Esse achado é o núcleo do debate. As alucinações financeiras não sempre surgem porque o modelo não sabe algo. Em muitos casos, o modelo sabe como chegar à resposta correta, mas escolhe o caminho errado para obter os dados de entrada. Isso é uma falha de arquitetura de decisão, e nenhuma atualização de pesos neuronais resolve isso por si só.

O mercado já percebe isso. A Gartner reporta um crescimento de 318% em ferramentas de detecção de alucinações entre 2023 e 2025. O 91% das políticas empresariais de IA agora incluem protocolos de mitigação explícitos. As organizações não estão esperando que os modelos melhorem: estão construindo camadas externas de contenção porque aprenderam que esperar é caro.

O custo real não está no erro, mas na cadeia que desencadeia

Analisar o custo das alucinações apenas em termos de perdas diretas é ficar com metade do problema. Os danos mais profundos operam em três camadas que se retroalimentam.

A primeira é a camada regulatória. A Securities and Exchange Commission nos Estados Unidos e a Financial Conduct Authority no Reino Unido são inequívocas: as empresas são responsáveis pelos resultados de seus sistemas de IA. "O algoritmo cometeu um erro" não é uma defesa válida diante de uma sanção. Isso significa que cada transação executada por um agente autônomo leva a assinatura legal da instituição que o implantou, independentemente de quanta supervisão humana existiu no momento específico da falha. O caso da Air Canada em 2023, onde a companhia perdeu um processo judicial por informações incorretas de seu chatbot, estabeleceu jurisprudência que o setor financeiro não pode ignorar.

A segunda é a camada de confiança operacional. O 47% dos executivos já tomou decisões com base em conteúdos de IA posteriormente identificados como incorretos, segundo o estudo da AllAboutAI de 2025. Quando isso ocorre repetidamente, o resultado não é que os executivos deixem de usar IA: é que desenvolvem camadas informais de verificação que consomem exatamente o tempo que a automatização deveria liberar. O overhead de verificação gera quedas de produtividade de 22%, o que destrói boa parte do valor econômico que justificou o investimento inicial em automação.

A terceira camada é a mais silenciosa: a degradação do critério institucional. Quando as equipes aprendem a desconfiar dos resultados sem saber exatamente quando confiar e quando não, o resultado é uma paralisia seletiva. As decisões de baixo risco são excessivamente validadas e os erros em operações de alta velocidade, onde a revisão humana é estruturalmente impossível, são subestimados. Isso não aparece em nenhuma linha de perdas e ganhos, mas sim na qualidade das decisões acumuladas ao longo de um exercício fiscal.

A rede de contenção como vantagem competitiva, não como custo de conformidade

Há uma leitura equivocada que convém desmantelar: a ideia de que os protocolos de segurança para agentes de IA são uma carga regulatória que freia a adoção. Os dados apontam na direção contrária.

As instituições que estão investindo em arquiteturas de contenção, incluindo camadas de verificação externa que projetos como o da Google DeepMind e seus parceiros buscam padronizar, estão se posicionando para operar com agentes de maior autonomia com menor risco operacional. Não é filantropia tecnológica: é o pré-requisito para escalar os casos de uso de maior valor sem acumular passivos legais e reputacionais no processo.

A lógica econômica é direta. Se 41% das consultas financeiras de IA geram resultados potencialmente falsos, o custo de não ter uma camada de contenção cresce proporcionalmente ao volume de operações automatizadas. Em baixa escala, o erro é gerenciável e corrigível. Em uma escala de milhares de transações diárias, torna-se um passivo sistêmico. As empresas que resolverem esse problema antes que o mercado o exija por regulamentação capturarão uma vantagem de tempo que os atrasados não poderão adquirir depois.

A fase em que este mercado se encontra é a de desilusão produtiva dentro do ciclo de adoção da IA autônoma: o momento em que as promessas iniciais colidem com os limites operacionais e obrigam a construção de infraestrutura de suporte que deveria ter existido desde o início. Essa infraestrutura, uma vez construída, não apenas reduz riscos: reduz o custo marginal de adicionar novos agentes ao sistema, tornando a segurança um acelerador de escala.

Os modelos que tratam a confiabilidade como uma característica do produto, e não como um custo de conformidade, são os únicos que permitirão que a inteligência artificial potencialize o critério humano em vez de forçar as equipes a compensar seus erros.