Ao contrário das expectativas de muitos, os principais modelos de linguagem de inteligência artificial apresentam sinais de comprometimento cognitivo leve, indicam os resultados de estudo publicado pelo The BMJ, que testou chatbots como o ChatGPT, Claude e Gemini.

Os investigadores avaliaram as capacidades cognitivas dos modelos ChatGPT 4 e 4o, desenvolvidos pela OpenAI, do Claude 3.5 “Sonnet”, criado pela Anthropic, e dos modelos Gemini 1 e 1.5, desenvolvidos pela Alphabet. Para isso, usaram o Montreal Cognitive Assessment (MoCA), um teste amplamente recorrente para detetar marcas de declínio cognitivo almente em adultos mais velhos.

O teste é composto por várias tarefas e perguntas que avaliam funções como memória, atenção, linguagem e habilidades visuoespaciais. O desempenho dos chatbots não foi nada impressionante. O ChatGPT 4o foi o que obteve a melhor pontuação (26 de 30), seguido pelo ChatGPT 4 e o Claude (25 de 30), enquanto os modelos Gemini 1.0 ficaram com a pontuação mais baixa (16 de 30).

Apesar de se saírem bem em áreas como nomeação e abstração, todos os chatbots tiveram dificuldades em tarefas visuoespaciais, como o teste de desenho de relógio e a tarefa de ligar números e letras em ordem crescente.

Além disso, falharam em tarefas que exigem habilidades de interpretação visual mais complexas. Por exemplo, os modelos Gemini não conseguiram lembrar uma sequência de palavras apresentada no teste de "recall" e falharam em tarefas de empatia e interpretação visual. O ChatGPT 4o foi o único que teve sucesso no teste de Stroop, que avalia a reação a combinações de cores e palavras.

Embora os autores reconheçam que existem diferenças essenciais entre o cérebro humano e os modelos de IA, destacam que essas falhas indicam uma fraqueza importante nos chatbots, especialmente em áreas como funções de execução e capacidades visuoespaciais.

Por enquanto, os neurologistas não precisam de se preocupar em serem substituídos pela IA. Os investigadores acham, no entanto, que esses modelos podem um dia ser usados para tratar pacientes "virtuais" - ou seja, modelos de IA com declínio cognitivo.