Agentes de IA: do volume à seleção de dados

Do volume à seleção: a armadilha que os agentes de IA estão forçando a resolver

Existe uma crença que percorre os corredores de quase toda organização que investiu em inteligência artificial nos últimos oito anos. A crença de que o problema é sempre de quantidade. Mais dados. Mais tokens. Mais cobertura. Mais histórico armazenado. Como se a inteligência fosse proporcional ao volume, e a solução para qualquer falha do sistema fosse simplesmente adicionar mais.

Essa convicção não nasceu da ingenuidade. Nasceu da era do big data, uma época em que acumular informação era tecnicamente difícil, custoso e, portanto, valioso em si mesmo. Quem tinha mais dados tinha vantagem. Quem conseguia processá-los, ainda mais. O modelo era simples e tinha uma lógica de mercado clara.

O que ocorre agora nas organizações que implantam agentes de IA em produção está forçando uma revisão desconfortável dessa premissa. O problema já não é escassez de dados. As empresas de médio porte em setores maduros acumularam trilhões de tokens entre CRMs, bancos de dados, documentos, e-mails, tickets de suporte, fios de comunicação interna e sistemas legados. O problema é que os agentes não sabem o que fazer com esse volume. Não porque sejam incapazes de processá-lo, mas porque ninguém os ensinou a filtrar. E essa incapacidade de seleção não é um problema técnico. É um problema de design organizacional que as empresas há anos vêm evitando com a desculpa de que primeiro precisavam de mais dados.

A ilusão de que mais contexto é melhor contexto

Existe uma diferença estrutural entre alimentar um modelo com tudo o que está disponível e dar-lhe acesso ao fragmento exato de que ele precisa para agir bem neste momento específico. A primeira opção parece mais segura porque se sente completa. A segunda exige que se tenha tomado antes uma decisão difícil: saber o que importa e o que não importa.

Essa decisão é custosa porque obriga alguém na organização a se comprometer com uma hierarquia de relevância. E comprometer-se com uma hierarquia de relevância significa aceitar que algumas coisas não importam tanto quanto acreditávamos, que alguns dados que levamos anos coletando não mudam o resultado, que algumas fontes que uma área defende como críticas são, na prática, ruído.

Poucas organizações estão dispostas a ter essa conversa. Não porque não possam. Mas porque ela tem um custo político interno que ninguém quer assumir. O resultado é que os agentes recebem contextos inflados, com informações contraditórias, sem hierarquia clara, e produzem respostas que são tecnicamente plausíveis, mas operacionalmente inúteis. A falha é atribuída ao modelo. A conversa que não aconteceu permanece intacta.

O que está emergindo como resposta a esse problema tem nome técnico: engenharia de contexto. Não é uma prática de otimização de prompts, embora na superfície possa parecer. É a disciplina de decidir, com critério organizacional, que informação um agente recebe para executar uma tarefa concreta. Isso implica busca estruturada para extrair fatos precisos de sistemas formais, busca semântica para recuperar significado em conteúdo não estruturado e indexação invertida para localizar identificadores exatos em tempo real. Três camadas de recuperação distintas, cada uma com uma função diferente. Nenhuma delas substitui a outra. Juntas, convertem o conhecimento acumulado em contexto utilizável.

O problema é que implementar isso corretamente exige que alguém na organização tenha definido antes o que é relevante para cada tipo de tarefa. E isso não é um problema de engenharia. É um problema de governança do conhecimento que a maioria das organizações nunca resolveu de forma explícita.

O que os grafos de contexto revelam sobre a maturidade organizacional

A próxima fronteira na arquitetura de agentes empresariais tem outro nome: grafos de contexto. A distinção em relação aos grafos de conhecimento convencionais é precisa e vale a pena explorá-la com cuidado.

Um grafo de conhecimento modela o que existe: entidades, relações, taxonomias, ontologias. Ele diz ao agente como está estruturado o mundo conceitual da organização. É útil, mas insuficiente. Um agente que sabe que existe um processo de aprovação de exceções não sabe, por isso, como essas exceções são resolvidas na prática, quem tem autoridade real para aprová-las em situações ambíguas, que fio de conversa informal gerou a decisão que hoje está codificada como política, ou qual solução alternativa a equipe de operações usa há dois anos porque o processo formal não funciona.

Os grafos de contexto capturam essa camada procedimental. Registram rastros de decisão: quem aprovou o quê, em que ordem, usando quais ferramentas, com qual resultado. Constroem uma memória organizacional persistente que inclui não apenas o estado atual das coisas, mas o caminho que levou até ali.

A implicação é significativa para quem lidera organizações, não apenas para quem as projeta tecnicamente. Uma organização que consegue construir grafos de contexto úteis é uma organização que foi capaz de tornar visível o seu próprio processo de tomada de decisões. Que nomeou seus fluxos reais de aprovação, suas exceções habituais, seus padrões de escalonamento. Que teve a conversa sobre como as decisões são realmente tomadas, e não apenas como o organograma diz que deveriam ser.

Muitas organizações não conseguem construir essa camada porque não a têm articulada. Não porque a informação não exista, mas porque ela existe distribuída em conversas informais, na memória de pessoas específicas, em práticas não documentadas que ninguém teve interesse em tornar explícitas — porque torná-las explícitas implicaria também torná-las auditáveis. E aí reside uma tensão que os projetos de IA agêntica estão trazendo à superfície com mais clareza do que qualquer consultoria de processos anterior.

O agente de IA não consegue operar com aquilo que a organização se recusa a nomear. E a recusa em nomear nem sempre é técnica. Frequentemente é política. É a proteção de espaços de discricionariedade que certas áreas ou pessoas não querem ver formalizados porque perderiam com isso uma parcela de poder ou de autonomia.

Por que o ritmo de adoção prevê quem terá vantagem, não quem a tem hoje

O Gartner projeta que mais de 50% dos sistemas de agentes de IA em ambientes empresariais utilizarão grafos de contexto antes de 2028. É um número que vale a pena ler com cuidado, porque não diz que todas as organizações os usarão bem. Diz que a maioria os usará de alguma forma.

A diferença entre usá-los de alguma forma e usá-los bem depende de algo que não se resolve com orçamento de tecnologia. Depende de se a organização foi capaz de fazer o trabalho prévio de articular como toma suas decisões de maneira granular e honesta. As organizações que chegarem a 2028 com grafos de contexto construídos sobre processos formais que ninguém segue de verdade terão agentes sofisticados que replicam disfunções com maior eficiência. As organizações que tiverem feito o trabalho desconfortável de mapear seus fluxos reais — incluindo os informais, os que ninguém documenta porque são convenientes precisamente por serem opacos — terão algo qualitativamente diferente: uma memória institucional capaz de aprender.

A vantagem competitiva em agentes de IA não será de quem implantou mais modelos ou de quem tem mais tokens armazenados. Será de quem soube filtrar antes. De quem construiu sistemas capazes de identificar o fragmento exato de contexto que muda o resultado de uma decisão concreta. E isso, na prática, é uma capacidade organizacional antes de ser tecnológica.

Vale a pena considerar o que ocorre no cenário oposto. Uma organização com centenas de agentes operando em paralelo, cada um construindo sua própria visão fragmentada e inconsistente de como a empresa funciona, gera um tipo de caos que não é imediatamente visível, mas é estruturalmente corrosivo. Os agentes se contradizem entre si. As decisões que um toma não são coerentes com as que outro toma. A memória institucional não se acumula: ela se fragmenta. E quando algo dá errado, ninguém consegue rastrear com clareza qual contexto recebeu qual agente e por que ele agiu como agiu. A governança colapsa exatamente no momento em que é mais necessária.

A seleção é a disciplina que as organizações ainda não aprenderam

Há algo que a evolução dos últimos oito anos em IA empresarial confirma com bastante consistência. O problema nunca foi a escassez de dados. Foi a resistência a decidir o que importa.

Decidir o que importa tem um custo. Significa que algumas áreas recebem menos atenção do sistema do que outras. Significa que algumas fontes de dados que representam trabalho acumulado ao longo de anos não entram no contexto operacional dos agentes. Significa que alguém precisa se comprometer com uma hierarquia e defendê-la diante de quem discorda.

Essa conversa, na maioria das organizações que conheço, nunca ocorreu de forma explícita no contexto da estratégia de IA. Foi evitada com a promessa implícita de que o sistema poderia lidar com tudo se recebesse capacidade computacional suficiente. O que os agentes de IA estão evidenciando agora é que essa promessa nunca foi viável. Não porque o poder computacional seja insuficiente, mas porque a inteligência que um agente pode mobilizar está limitada pela qualidade do contexto que recebe, e a qualidade do contexto não é uma função do volume. É uma função da clareza com que a organização foi capaz de articular o que sabe e como o utiliza.

As organizações que conseguirem construir essa clareza não o farão porque encontraram a plataforma tecnológica certa. Farão isso porque alguém em posição de liderança teve a disposição de forçar a conversa que outros evitavam, de nomear o que o sistema preferia deixar sem nome, de se comprometer com uma hierarquia de relevância que tem um custo político real e visível. Essa é a capacidade que não se compra com orçamento de infraestrutura. E é, por ora, a mais escassa.