Frameworks de avaliação: a peça-chave para levar a IA generativa a produção com sucesso

24 Jul 2025 19:26

APIs, bots, empresas, Intellias, opinião

Opinião • 27 Mar 19:14

Empresas IA e Cibersegurança: a confiança digital vai ser o maior desafio da próxima década

A propósito dos riscos de segurança dos modelos de IA, vulneráveis a padrões indesejáveis e prompt hacking, Nuno China defende que proteger a IA é proteger o futuro.
Opinião • 26 Mar 19:18

Opinião Quando o outsourcing de TI acelera (ou trava) a transformação digital

Quando bem enquadrado, o outsourcing é uma ferramenta estratégica para aumentar a velocidade de execução das organizações mas Jorge Paiva avisa que sem capacidade de orientação pode transformar-se num travão significativo para o negócio.

Para Gregorio Ferreira, o futuro pertence a quem não se limita a construir IA, mas o faz de forma responsável. A avaliação estruturada é o caminho para lá chegar.

Por Gregorio Ferreira (*)

Hoje, as empresas enfrentam uma questão decisiva: como medir de forma fiável o desempenho, a relevância e a eficácia dos agentes de IA, e demonstrar que estão alinhados com os KPIs estratégicos?

A inteligência artificial generativa (GenAI) e os agentes impulsionados por IA demonstram o seu poder transformador em múltiplos sectores. O seu potencial é indiscutível, mas a rapidez com que o ecossistema evolui dificulta avançar com segurança. Neste artigo, partilho a minha experiência sobre como as organizações podem enfrentar este desafio e porque é essencial repensar as métricas tradicionais para extrair todo o valor da IA.

Lições do terreno (2016-2017)

Ao liderar um incubador de inovação focado em serviços cognitivos entre 2016 e 2017, percebi, em primeira mão, que avaliações rigorosas são críticas para levar a IA do laboratório para a produção. Na altura, a nossa pequena equipa desenvolvia chatbots concebidos para simplificar tarefas tão distintas como o reconhecimento de ativos através de OCR e visão por computador ou o suporte interno de RH para uma multinacional tecnológica. Estas soluções iniciais — relativamente básicas face aos padrões atuais — evidenciaram a necessidade crítica de mecanismos sistemáticos de avaliação.
Estes bots baseavam-se sobretudo em regras ou na recuperação de respostas: conseguiam escolher a melhor resposta existente, mas não gerá-la. Os modelos generativos seq2seq continuavam a exigir muito das GPUs e raramente eram implementados em chatbots.

Tomemos como exemplo o nosso chatbot “APIs”, que permitia aos engenheiros no terreno reconhecer ativos industriais via OCR, otimizando de forma significativa o seu fluxo de trabalho. Outro chatbot interno oferecia suporte de primeira linha em RH, o que resultou numa poupança considerável ao possibilitar melhores negociações com a empresa subcontratada de suporte de nível 1. Nessa altura, os nossos bots ainda dependiam de orquestradores de API construídos manualmente. Entre 2015 e 2016 surgiram os primeiros serviços sequence-to-sequence (LSTM) na cloud, demonstrando que era possível gerar, e não apenas recuperar, respostas completas. Esse avanço lançou as bases para a revolução do transformer em 2017 e, com o tempo, para os atuais agentes baseados em LLM. Atualmente, graças a protocolos modernos como MCP (Model Context Protocol) e A2A (Agent-to-Agent), os agentes baseados em LLM conseguem descobrir e utilizar APIs complexas de forma autónoma, permitindo execuções de tarefas muito mais dinâmicas e inteligentes — algo que em 2016 só conseguíamos prototipar manualmente. Esta evolução demonstra o quão longe chegámos: de uma lógica determinística simples para interações sofisticadas e adaptativas entre agentes.

Contudo, apesar dos nossos esforços, tornou-se claro que as árvores de decisão determinísticas e os fluxos de perguntas e respostas pré-definidos não eram suficientes. Aprendemos rapidamente que avaliações exaustivas eram essenciais, não só para avaliar até que ponto os nossos chatbots compreendiam as questões dos utilizadores, mas também para resistirem a tentativas deliberadas dos utilizadores de “quebrar” os bots.
Anos antes de o termo “observabilidade” se tornar popular, já registávamos rastreios exaustivos, capturávamos estados e medíamos cada interação. O nosso método meticuloso incluía registos extensivos (logs), monitorização de estados e recolha de métricas detalhadas sobre as interações dos utilizadores, estabelecendo as bases para as práticas de avaliação mais avançadas que hoje vemos. Essa disciplina continua a sustentar o framework de avaliação que apresentamos atualmente.

Avançando para o presente

Aproveitando anos de experiência prática, aperfeiçoámos o nosso método num framework de avaliação estruturado e robusto. Mas porque são estes frameworks tão importantes hoje?

Um investimento estratégico

Os frameworks de avaliação ligam a tecnologia a resultados empresariais claros e mensuráveis, proporcionando uma visão mais aprofundada da precisão, capacidade de resposta e relevância dos agentes nas suas interações com os utilizadores.

O framework atual foi testado em contextos reais e assenta em três camadas principais:

Geração de dados e rastreabilidade: Pipelines automáticos asseguram conjuntos de dados estruturados e rastreáveis, alinhados com os objetivos do negócio.
Orquestração de avaliações com MLflow: O acompanhamento integral em MLflow garante reprodutibilidade e transparência em cada experiência.
Relatórios accionáveis e insights: Dashboards intuitivos, integrados com ferramentas de BI populares, oferecem transparência para decisões informadas.

Métricas que importam

Concentramos-nos em métricas-chave alinhadas com o negócio:

Fundamentação e fidelidade: Assegurar a precisão factual.
Relevância e exaustividade: Responder integralmente às questões dos utilizadores.
Concisão e fluidez: Oferecer interações claras e envolventes.
Desempenho, latência e custo: Cumprir os padrões operacionais.

Acelerar a adoção empresarial

O framework de avaliação oferece benefícios imediatos:

Escalabilidade rápida: Implementação célere e avaliações adaptáveis.
Integração fluida: Fácil de integrar em infraestruturas diversas.
Melhoria contínua: Avaliações periódicas que impulsionam a evolução constante das soluções de IA.

Transformar o potencial da IA

Hoje, as empresas exigem transparência, clareza estratégica e resultados quantificáveis dos seus investimentos em IA. Sem estes elementos, a adoção da IA pode tornar-se meramente experimental. Mas com o framework certo, a IA torna-se responsável, mensurável e, em última análise, transformadora.

O futuro pertence a quem não se limita a construir IA, mas o faz de forma responsável. A avaliação estruturada é o caminho para lá chegar.

(*) Director de Operações de IA na Intellias

Veja também

Opinião • 27 Mar 19:14

Empresas IA e Cibersegurança: a confiança digital vai ser o maior desafio da próxima década

A propósito dos riscos de segurança dos modelos de IA, vulneráveis a padrões indesejáveis e prompt hacking, Nuno China defende que proteger a IA é proteger o futuro.
Opinião • 26 Mar 19:18

Opinião Quando o outsourcing de TI acelera (ou trava) a transformação digital

Quando bem enquadrado, o outsourcing é uma ferramenta estratégica para aumentar a velocidade de execução das organizações mas Jorge Paiva avisa que sem capacidade de orientação pode transformar-se num travão significativo para o negócio.

Em Destaque

Equipamentos • 29 Mar 17:44

Detox digital Meadow é o novo smartphone minimalista que descarta redes sociais. Apenas o essencial para socializar

Sem toques de notificações ou acessos às redes sociais, o Meadow foi desenhado para ser minimalista, oferecendo apenas o essencial para um detox digital.
Ciência • 29 Mar 15:42

Espaço Dueto entre telescópios Hubble e James Webb desvenda segredos de Saturno (por camadas)

Durante décadas, o telescópio espacial Hubble tem observado Saturno com um olhar atento e paciente. Mais recentemente, ganhou um aliado com capacidades diferentes: James Webb. Juntos, voltaram a focar-se no gigante gasoso.
Site do dia • 29 Mar 11:59

Wildlife Photographer of the Year Um lince e um roedor são os protagonistas da foto escolhida pelo público

São 25 imagens extraordinárias as que foram escolhidas como finalistas do prémio Wildlife Photographer of the Year. A fotografia de Josef Stefan destacou-se na escolha do público.
Computadores • 28 Mar 17:03

IA Tecnologia desenvolvida por investigadores em Coimbra reconhece emoções na música

Através do projeto foi possível criar um protótipo de aplicação que posiciona cada música num “mapa emocional”. No futuro, os investigadores querem integrar todas as inovações desenvolvidas numa app autónomia e numa plataforma web.

Últimas

Equipamentos • 29 Mar 17:44

Detox digital Meadow é o novo smartphone minimalista que descarta redes sociais. Apenas o essencial para socializar

Sem toques de notificações ou acessos às redes sociais, o Meadow foi desenhado para ser minimalista, oferecendo apenas o essencial para um detox digital.
Ciência • 29 Mar 15:42

Espaço Dueto entre telescópios Hubble e James Webb desvenda segredos de Saturno (por camadas)

Durante décadas, o telescópio espacial Hubble tem observado Saturno com um olhar atento e paciente. Mais recentemente, ganhou um aliado com capacidades diferentes: James Webb. Juntos, voltaram a focar-se no gigante gasoso.
Site do dia • 29 Mar 11:59

Wildlife Photographer of the Year Um lince e um roedor são os protagonistas da foto escolhida pelo público

São 25 imagens extraordinárias as que foram escolhidas como finalistas do prémio Wildlife Photographer of the Year. A fotografia de Josef Stefan destacou-se na escolha do público.
Computadores • 28 Mar 17:03

IA Tecnologia desenvolvida por investigadores em Coimbra reconhece emoções na música

Através do projeto foi possível criar um protótipo de aplicação que posiciona cada música num “mapa emocional”. No futuro, os investigadores querem integrar todas as inovações desenvolvidas numa app autónomia e numa plataforma web.
Computadores • 28 Mar 15:13

Ainda se lembra do Afeela 1? Carro elétrico que junta a Sony e a Honda foi cancelado

A Sony Honda Mobility anunciou a 25 de março o cancelamento definitivo do Afeela 1 e do seu sucessor, invocando a reavaliação estratégica da Honda no segmento de veículos elétricos. Este cancelamento deixa em aberto o futuro da joint venture criada em 2022.
Apps • 28 Mar 11:43

Redes Sociais WhatsApp facilita gestão do armazenamento, troca entre contas e transferência de conversas entre iOS e Android

A Meta lançou uma atualização que introduz uma série de novidades para o WhatsApp. Estas visam simplificar a organização das conversas, permitem usar duas contas em simultâneo no iPhone e introduzem edição de fotos com inteligência artificial diretamente no chat.