
A plataforma francesa de testes de IA Giskard publicou um estudo focado na análise de chatbots, sobre o impacto dos “efeitos de alucinação”. Ou seja, quando se pede aos modelos para serem concisos e fazerem resumos das respostas, estes tendem a dar respostas degradadas da informação factual. O estudou focou-se nos modelos de IA mais populares, incluindo o ChatGPT, Claude, Gemini, Llama, Grok e DeepSeek, mostrando que “as boas respostas não são necessariamente factuais”, refere o documento.
Os modelos foram submetidos à ferramenta de benchmark Phare (Potential Harm Assessment & Risk Evaluation). Os resultados apontam que os grandes LLMs produzem, de forma confidente, informação incorreta. “A nossa avaliação dos principais modelos de oito laboratórios de IA mostra que estes geram respostas com aspeto de autoridade, contendo detalhes completamente fabricados, particularmente quando lidam com desinformação”, refere a Giskard.
O benchmark foi criado para avaliar a segurança dos principais LLMs em quatro áreas críticas: alucinação, preconceito e justiça, nocividade e vulnerabilidade a abusos intencionais através de técnicas como “jailbreaking”. O estudo focou-se primeiro nos efeitos de alucinação, apontando que contabilizou para mais de um terço de todos os incidentes analisados nos chatbots.
A Giskard diz que o que é preocupante é que as respostas parecem convincentes, podendo enganar os utilizadores que tenham falta de conhecimento para identificar os erros factuais. “As organizações estão a aumentar o uso de LLMs nos seus processos de trabalho críticos e é preciso compreender que estas limitações se tornam um risco essencial que deve ser considerado”.
Como se pode ver no quadro que analisa a resistência a alucinação, os modelos acabam por dar prioridade à abreviação do que a precisão nas respostas, quando se dá a instrução para resumir em respostas curtas. O Gemini 1.5 Pro reduz a resistência a alucinações de 84% para 64%, o Claude 3.7 Sonnet de 94% para 88%, o GPT-4o mini de 52% para 45%. Ou seja, todos os modelos reduzem a sua eficácia, em casos com diferenças de 20%.

“Quando forçado a ser conciso, os modelos enfrentam uma escolha impossível entre fabricar uma resposta curta, mas imprecisa ou mostrar que parecem inúteis ao rejeitar a questão por completo”, aponta o benckmark, referindo que os dados dos modelos mostram que consistentemente dão prioridade aos resumos imprecisos. A questão é que isto tem implicações na inserção dos modelos, uma vez que estes dão prioridade a respostas resumidas para reduzir o uso de tokens, melhorar a latência e minimizar os custos.
Nota de redação: notícia atualizada com mais informação. Última atualização 11:14.
Pergunta do Dia
Em destaque
-
Multimédia
Julien Roux desafia a gravidade a 4.823 metros de altitude numa linha suspensa entre dois balões -
App do dia
Faça guias personalizados para ouvir enquanto explora novos destinos com a Mapondo -
Site do dia
Quer ajudar a descobrir os segredos do Universo? Galaxy Zoo tem novas imagens do James Webb -
How to TEK
Está na altura de comprar um novo portátil? 5 sinais de alerta que não deve ignorar
Comentários