Avaliar sempre não significa entender melhor

Avaliar o tempo todo não é o mesmo que entender melhor

Durante décadas, a indústria da aviação mediu a competência de um piloto com duas métricas: horas acumuladas em cabine e tipo de aeronave certificada. Eram indicadores caros de obter, difíceis de falsificar e razoavelmente preditivos. O sistema não era perfeito, mas tinha uma virtude que poucas organizações reconhecem em sua justa dimensão: sabia exatamente o que estava medindo e para quê.

Hoje, um número crescente de empresas está migrando para sistemas de avaliação contínua de desempenho, muitos deles impulsionados por inteligência artificial, sob a premissa de que conhecer melhor e com maior frequência seus colaboradores permitirá tomar melhores decisões sobre talentos, formação e estrutura organizacional. A promessa é sedutora. O problema é que a frequência de medição não equivale à profundidade de compreensão, e essa confusão tem consequências estratégicas que poucas empresas estão calculando corretamente.

Um artigo recente da Harvard Business Review, assinado por Sangeet Paul Choudary e John Winsor, duas figuras com trabalho sustentado na interseção entre inteligência artificial e design organizacional, coloca essa tensão sobre a mesa de maneira direta. Seu argumento de partida é preciso: o avanço da IA está redesenhando a divisão do trabalho entre pessoas e máquinas a uma velocidade que os instrumentos tradicionais — títulos de cargo, currículos, avaliações anuais — não conseguem acompanhar. O que propõem como alternativa são sistemas de avaliação contínua que capturem capacidades de forma dinâmica e as conectem a decisões de formação, mobilidade interna e planejamento de força de trabalho. Eles estão certos no diagnóstico. O debate começa quando se examina a arquitetura real dessa solução.

O que a avaliação contínua resolve e o que não pode resolver

O argumento a favor dos sistemas contínuos de avaliação não é fraco. Os dados sobre as revisões anuais tradicionais são, para dizer com precisão, devastadores em termos de eficiência. Uma empresa de cem pessoas destina aproximadamente 5.500 horas por ano a processos formais de revisão de desempenho, sem contar o tempo que os próprios colaboradores investem em autoavaliações. Isso equivale a quase três posições de tempo integral absorvidas por um ritual que, segundo pesquisas recentes, 35% dos colaboradores percebe como injusto e que gera ansiedade suficiente para que um em cada cinco tire licença médica no dia da avaliação.

Se o modelo que se tenta substituir produz esse nível de atrito e desconfiança, a necessidade de mudança não requer maior argumentação. E é aí que os sistemas de avaliação contínua oferecem algo genuinamente valioso: a possibilidade de converter dados de trabalho real em sinais precoces sobre lacunas de habilidades, identificar talentos que os circuitos formais jamais teriam tornado visíveis, e ajustar o planejamento de força de trabalho antes que uma crise de capacidade se torne irreversível.

A eficiência também tem um argumento a seu favor sob o ângulo do tempo gerencial. Se a inteligência artificial pode automatizar a coleta e a análise preliminar de dados de desempenho, os líderes deixam de operar como arquivistas de avaliações e passam a atuar como treinadores estratégicos. Essa liberação de tempo não é marginal: organizações que investiram em formação acelerada de suas equipes relatam que os líderes recuperam horas significativas que antes eram consumidas na resolução de dúvidas operacionais de baixo valor.

Mas o sistema tem um limite estrutural que a narrativa dos dados contínuos tende a ocultar. Medir com maior frequência não resolve o problema de o que se mede. Se as métricas capturadas pela IA refletem principalmente velocidade de resposta, volume de output ou cumprimento de tarefas rotineiras, a avaliação contínua não produz uma imagem mais rica do colaborador: produz uma imagem mais granular de suas atividades mais superficiais. A diferença entre essas duas coisas é, estrategicamente, enorme.

Há ainda um risco que pesquisadores de gestão de talentos têm identificado com crescente clareza: quando os sistemas de avaliação estão conectados diretamente a metas de desempenho agressivas e o monitoramento é constante, o efeito não é motivação sustentada, mas estreitamento de foco. As equipes deixam de experimentar, deixam de assumir os riscos necessários para aprender, e concentram sua energia nas métricas que sabem estar sendo observadas. O resultado, documentado em pesquisas sobre metas de alto desempenho, é que o curto prazo parece bem e o médio prazo se degrada silenciosamente.

O problema real não é a tecnologia, é o propósito do sistema

Uma empresa pode implementar o sistema de avaliação contínua mais sofisticado do mercado e ainda assim ser incapaz de responder a uma pergunta operacional básica: para que está medindo o que mede. Isso não é uma crítica à ferramenta. É uma observação sobre a diferença entre instalar infraestrutura e construir capacidade de decisão.

A distinção importa porque os sistemas de avaliação contínua não são neutros. Produzem consequências culturais que dependem diretamente de como são desenhados e de que sinais enviam aos colaboradores sobre o que a organização valoriza. Se o sistema captura dados mas não os converte em conversas de desenvolvimento concretas, o que os colaboradores recebem não é retroalimentação: é vigilância. E a vigilância, mesmo quando é benevolamente intencionada, tem um efeito previsível sobre a segurança psicológica das equipes.

Pesquisas em comportamento organizacional mostraram que quando se pede às pessoas que ofereçam retroalimentação sobre o desempenho de um colega, a qualidade dessa retroalimentação melhora notavelmente se o pedido é enquadrado como uma solicitação de conselho em vez de uma avaliação. O conselho orienta para o futuro, gera recomendações concretas e ativa uma disposição para ajudar. A avaliação olha para trás e ativa mecanismos de defesa. Para que um sistema de avaliação contínua produza desenvolvimento real, as interações humanas que cercam os dados precisam ser desenhadas com essa lógica, não apenas as telas de análise.

Existe também uma dimensão de governança que as organizações estão subestimando. À medida que os sistemas de IA ganham terreno na avaliação de pessoas, a pergunta sobre como os escores são gerados, quais vieses contêm os algoritmos treinados com dados históricos, e quais direitos os colaboradores têm sobre essas informações torna-se inevitável. Não é uma pergunta regulatória abstrata: é uma pergunta de confiança operacional. Um colaborador que não entende como foi avaliado por um sistema automatizado não pode corrigir comportamentos de maneira significativa. Pode, ao contrário, aprender a otimizar os indicadores visíveis enquanto deixa de atender os que o sistema não captura.

As organizações que estão implementando esses sistemas sem uma arquitetura de transparência e explicabilidade estão acumulando uma dívida de confiança que eventualmente cobra seu preço em retenção, colaboração e disposição para o aprendizado.

Quando a frequência de medição substitui o julgamento estratégico

Há uma lógica implícita na adoção massiva de sistemas de avaliação contínua que merece ser examinada com atenção. Essa lógica diz que, se se dispõe de mais dados, mais frequentes e mais granulares, serão tomadas melhores decisões sobre pessoas. É uma lógica que faz sentido em domínios onde a variável de interesse é estável, onde o modelo de medição é robusto e onde o vínculo entre o indicador e o resultado que importa está bem estabelecido.

Na gestão de talentos, nenhuma dessas três condições se cumpre de maneira automática. As capacidades humanas são intrinsecamente contextuais: alguém pode ter um desempenho medíocre em um papel mal desenhado e extraordinariamente bom em outro. Os modelos de medição herdam os vieses de quem os desenhou e dos dados históricos com os quais foram treinados. E o vínculo entre os indicadores de curto prazo que os sistemas capturam e os resultados organizacionais de longo prazo que importam é, na melhor das hipóteses, parcial.

Isso não invalida a utilidade dos sistemas de avaliação contínua. Invalida-os como substitutos do julgamento estratégico sobre pessoas. E essa distinção, precisamente essa, é a que muitas organizações estão perdendo na euforia de implementação.

O alerta que Choudary e Winsor inserem em seu argumento — o de que as organizações devem ser cuidadosas na forma como implementam esses sistemas — não é um detalhe menor. É o núcleo do problema. Porque o como da implementação não é uma variável técnica: é uma variável de propósito. Uma organização que implementa avaliação contínua para reduzir custos de revisão anual e otimizar a alocação de pessoas em projetos está fazendo algo fundamentalmente diferente de uma organização que o faz para detectar lacunas de aprendizado, acelerar a mobilidade interna e sustentar conversas de desenvolvimento de maior qualidade. Ambas podem comprar a mesma plataforma. Os resultados culturais e estratégicos serão distintos.

O risco que os analistas do Gartner sinalizaram para 2026 é ilustrativo nesse sentido: a IA pode criar condições operacionais que impulsionem pressões de desempenho inviáveis, erodindo resultados de longo prazo enquanto os indicadores de curto prazo parecem sólidos. É um padrão conhecido em outras áreas da gestão: otimiza-se o que se mede, abandona-se o que não aparece no painel, e a organização aprende silenciosamente a parecer bem nos relatórios enquanto perde substância nos processos que não têm coluna na planilha.

A escolha que nenhum sistema pode fazer pela organização

Há algo que os melhores sistemas de avaliação contínua não podem fazer: decidir que tipo de organização quer ser quem os utiliza. Não podem resolver se o propósito da avaliação é o controle ou o desenvolvimento. Não podem determinar se os dados serão usados para abrir conversas ou para fechá-las. Não podem estabelecer se a métrica de velocidade de aprendizado importa mais ou menos do que a de cumprimento de objetivos trimestrais.

Essas são decisões de arquitetura organizacional, e precedem qualquer escolha tecnológica. As empresas que estão adotando plataformas de avaliação contínua sem tê-las tomado explicitamente não estão sendo imprudentes por ingenuidade. Estão sendo imprudentes por uma razão mais comum: a urgência de implementar gera a ilusão de que o sistema tomará essas decisões por si só, ou que podem ser tomadas depois. A experiência acumulada em transformações organizacionais sugere que, quando se posterga a decisão sobre o propósito, o sistema adota o propósito padrão do contexto em que opera. Na maioria das organizações, esse propósito padrão é o controle do desempenho, não o seu desenvolvimento.

O momento anterior à decisão de implementar — esse espaço em que uma organização deve clarificar o que fará com os dados que obterá, que conversas gerará, como protegerá a confiança das pessoas avaliadas e a que tipo de decisões não vinculará os resultados do sistema — é o momento estratégico real. Não a seleção do fornecedor nem o design do painel de indicadores.

As organizações que chegarem a esse momento com respostas claras sobre propósito, limites e uso da informação não estarão simplesmente implementando melhor tecnologia. Estarão construindo um sistema de avaliação capaz de sustentar o aprendizado organizacional sob pressão, que é exatamente o que a aceleração da inteligência artificial no trabalho torna necessário. As que postergarem essa decisão descobrirão, com dados de alta frequência e precisão granular, que mediram tudo e compreenderam pouco.