Chatbots de inteligência artificial tendem a aumentar erros e "alucinar" quando se pedem respostas resumidas

Rui Parreira

12 mai 2025 10:47

Um estudo analisou chatbots de inteligência artificial, como o ChatGPT, Claude, Gemini, Llama, Grok e DeepSeek, concluindo que quando se pede respostas breves às questões, estes degradam a informação factual, o chamado efeito de “alucinação”.

A plataforma francesa de testes de IA Giskard publicou um estudo focado na análise de chatbots, sobre o impacto dos “efeitos de alucinação”. Ou seja, quando se pede aos modelos para serem concisos e fazerem resumos das respostas, estes tendem a dar respostas degradadas da informação factual. O estudou focou-se nos modelos de IA mais populares, incluindo o ChatGPT, Claude, Gemini, Llama, Grok e DeepSeek, mostrando que “as boas respostas não são necessariamente factuais”, refere o documento.

Os modelos foram submetidos à ferramenta de benchmark Phare (Potential Harm Assessment & Risk Evaluation). Os resultados apontam que os grandes LLMs produzem, de forma confidente, informação incorreta. “A nossa avaliação dos principais modelos de oito laboratórios de IA mostra que estes geram respostas com aspeto de autoridade, contendo detalhes completamente fabricados, particularmente quando lidam com desinformação”, refere a Giskard.

O benchmark foi criado para avaliar a segurança dos principais LLMs em quatro áreas críticas: alucinação, preconceito e justiça, nocividade e vulnerabilidade a abusos intencionais através de técnicas como “jailbreaking”. O estudo focou-se primeiro nos efeitos de alucinação, apontando que contabilizou para mais de um terço de todos os incidentes analisados nos chatbots.

A Giskard diz que o que é preocupante é que as respostas parecem convincentes, podendo enganar os utilizadores que tenham falta de conhecimento para identificar os erros factuais. “As organizações estão a aumentar o uso de LLMs nos seus processos de trabalho críticos e é preciso compreender que estas limitações se tornam um risco essencial que deve ser considerado”.

Como se pode ver no quadro que analisa a resistência a alucinação, os modelos acabam por dar prioridade à abreviação do que a precisão nas respostas, quando se dá a instrução para resumir em respostas curtas. O Gemini 1.5 Pro reduz a resistência a alucinações de 84% para 64%, o Claude 3.7 Sonnet de 94% para 88%, o GPT-4o mini de 52% para 45%. Ou seja, todos os modelos reduzem a sua eficácia, em casos com diferenças de 20%.

“Quando forçado a ser conciso, os modelos enfrentam uma escolha impossível entre fabricar uma resposta curta, mas imprecisa ou mostrar que parecem inúteis ao rejeitar a questão por completo”, aponta o benckmark, referindo que os dados dos modelos mostram que consistentemente dão prioridade aos resumos imprecisos. A questão é que isto tem implicações na inserção dos modelos, uma vez que estes dão prioridade a respostas resumidas para reduzir o uso de tokens, melhorar a latência e minimizar os custos.

Nota de redação: notícia atualizada com mais informação. Última atualização 11:14.

Pergunta do Dia

Em destaque

Últimas

Casa dos Bits · Apps · 14 jul 2025 22:05

Tiny Reaper: Reborn desafia a “ceifar” os inimigos, desde bebé até se tornar um forte guerreiro

por Rui Parreira
Casa dos Bits · Opinião · 14 jul 2025 20:36

A inteligência é artificial, mas a mudança é humana
Casa dos Bits · Computadores · 14 jul 2025 18:19

Grok já chegou aos automóveis da Tesla, mas apenas para responder a perguntas (atrevidas)

por Rui Parreira
Casa dos Bits · Equipamentos · 14 jul 2025 17:27

Xiaomi 15 e o Xiaomi 14T Pro estreiam nova tecnologia de chamadas 5G com mais qualidade e desempenho

por Rui Parreira
Casa dos Bits · Computadores · 14 jul 2025 16:24

Ainda não migrou para o Windows 11? Office deixa de receber novas funções no Windows 10 em 2026

por Rui Parreira
Casa dos Bits · Internet · 14 jul 2025 15:43

Verificação de idade das crianças e jovens online vai avançar na Europa. Protótipo de aplicação vai ser testada por cinco países

por Fátima Caçador Rui Parreira

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Notificações web	Coisa
Alertas SMS	Gerir

Chatbots de inteligência artificial tendem a aumentar erros e "alucinar" quando se pedem respostas resumidas

Pergunta do Dia

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Últimas

Comentários

Relacionados Playlist

Chatbots de inteligência artificial tendem a aumentar erros e "alucinar" quando se pedem respostas resumidas

Pergunta do Dia

Veja também

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Comentários

Veja também