
Por Gregorio Ferreira (*)
Hoje, as empresas enfrentam uma questão decisiva: como medir de forma fiável o desempenho, a relevância e a eficácia dos agentes de IA, e demonstrar que estão alinhados com os KPIs estratégicos?
A inteligência artificial generativa (GenAI) e os agentes impulsionados por IA demonstram o seu poder transformador em múltiplos sectores. O seu potencial é indiscutível, mas a rapidez com que o ecossistema evolui dificulta avançar com segurança. Neste artigo, partilho a minha experiência sobre como as organizações podem enfrentar este desafio e porque é essencial repensar as métricas tradicionais para extrair todo o valor da IA.
Lições do terreno (2016-2017)
Ao liderar um incubador de inovação focado em serviços cognitivos entre 2016 e 2017, percebi, em primeira mão, que avaliações rigorosas são críticas para levar a IA do laboratório para a produção. Na altura, a nossa pequena equipa desenvolvia chatbots concebidos para simplificar tarefas tão distintas como o reconhecimento de ativos através de OCR e visão por computador ou o suporte interno de RH para uma multinacional tecnológica. Estas soluções iniciais — relativamente básicas face aos padrões atuais — evidenciaram a necessidade crítica de mecanismos sistemáticos de avaliação.
Estes bots baseavam-se sobretudo em regras ou na recuperação de respostas: conseguiam escolher a melhor resposta existente, mas não gerá-la. Os modelos generativos seq2seq continuavam a exigir muito das GPUs e raramente eram implementados em chatbots.
Tomemos como exemplo o nosso chatbot “APIs”, que permitia aos engenheiros no terreno reconhecer ativos industriais via OCR, otimizando de forma significativa o seu fluxo de trabalho. Outro chatbot interno oferecia suporte de primeira linha em RH, o que resultou numa poupança considerável ao possibilitar melhores negociações com a empresa subcontratada de suporte de nível 1. Nessa altura, os nossos bots ainda dependiam de orquestradores de API construídos manualmente. Entre 2015 e 2016 surgiram os primeiros serviços sequence-to-sequence (LSTM) na cloud, demonstrando que era possível gerar, e não apenas recuperar, respostas completas. Esse avanço lançou as bases para a revolução do transformer em 2017 e, com o tempo, para os atuais agentes baseados em LLM. Atualmente, graças a protocolos modernos como MCP (Model Context Protocol) e A2A (Agent-to-Agent), os agentes baseados em LLM conseguem descobrir e utilizar APIs complexas de forma autónoma, permitindo execuções de tarefas muito mais dinâmicas e inteligentes — algo que em 2016 só conseguíamos prototipar manualmente. Esta evolução demonstra o quão longe chegámos: de uma lógica determinística simples para interações sofisticadas e adaptativas entre agentes.
Contudo, apesar dos nossos esforços, tornou-se claro que as árvores de decisão determinísticas e os fluxos de perguntas e respostas pré-definidos não eram suficientes. Aprendemos rapidamente que avaliações exaustivas eram essenciais, não só para avaliar até que ponto os nossos chatbots compreendiam as questões dos utilizadores, mas também para resistirem a tentativas deliberadas dos utilizadores de “quebrar” os bots.
Anos antes de o termo “observabilidade” se tornar popular, já registávamos rastreios exaustivos, capturávamos estados e medíamos cada interação. O nosso método meticuloso incluía registos extensivos (logs), monitorização de estados e recolha de métricas detalhadas sobre as interações dos utilizadores, estabelecendo as bases para as práticas de avaliação mais avançadas que hoje vemos. Essa disciplina continua a sustentar o framework de avaliação que apresentamos atualmente.
Avançando para o presente
Aproveitando anos de experiência prática, aperfeiçoámos o nosso método num framework de avaliação estruturado e robusto. Mas porque são estes frameworks tão importantes hoje?
Um investimento estratégico
Os frameworks de avaliação ligam a tecnologia a resultados empresariais claros e mensuráveis, proporcionando uma visão mais aprofundada da precisão, capacidade de resposta e relevância dos agentes nas suas interações com os utilizadores.
O framework atual foi testado em contextos reais e assenta em três camadas principais:
- Geração de dados e rastreabilidade: Pipelines automáticos asseguram conjuntos de dados estruturados e rastreáveis, alinhados com os objetivos do negócio.
- Orquestração de avaliações com MLflow: O acompanhamento integral em MLflow garante reprodutibilidade e transparência em cada experiência.
- Relatórios accionáveis e insights: Dashboards intuitivos, integrados com ferramentas de BI populares, oferecem transparência para decisões informadas.
Métricas que importam
Concentramos-nos em métricas-chave alinhadas com o negócio:
- Fundamentação e fidelidade: Assegurar a precisão factual.
- Relevância e exaustividade: Responder integralmente às questões dos utilizadores.
- Concisão e fluidez: Oferecer interações claras e envolventes.
- Desempenho, latência e custo: Cumprir os padrões operacionais.
Acelerar a adoção empresarial
O framework de avaliação oferece benefícios imediatos:
- Escalabilidade rápida: Implementação célere e avaliações adaptáveis.
- Integração fluida: Fácil de integrar em infraestruturas diversas.
- Melhoria contínua: Avaliações periódicas que impulsionam a evolução constante das soluções de IA.
Transformar o potencial da IA
Hoje, as empresas exigem transparência, clareza estratégica e resultados quantificáveis dos seus investimentos em IA. Sem estes elementos, a adoção da IA pode tornar-se meramente experimental. Mas com o framework certo, a IA torna-se responsável, mensurável e, em última análise, transformadora.
O futuro pertence a quem não se limita a construir IA, mas o faz de forma responsável. A avaliação estruturada é o caminho para lá chegar.
(*) Director de Operações de IA na Intellias
Pergunta do Dia
Em destaque
-
Multimédia
Dune: Awakening é o jogo de sobrevivência com ADN português -
App do dia
Pit Cat põe a sua mente (e pontaria) à prova com 100 níveis cheios de desafios -
Site do dia
GraphFast é uma plataforma minimalista e gratuita para quem precisa de criar gráficos apelativos -
How to TEK
Como ligar o mostrador de velocidade do automóvel na app do Google Maps em Android Auto
Comentários