
Os investigadores explicam que modelos de linguagem como o Claude não são programados diretamente por humanos, mas sim treinados com recurso a vastos conjuntos de dados. Durante este processo, os modelos aprendem por si próprios a desenvolver estratégias para resolver problemas.
No entanto, estas estratégias são incompreensíveis para os programadores dos modelos. Inspirados pelo campo da neurociência, os investigadores desenvolveram uma espécie de “microscópio de IA” que permite identificar padrões de atividade e fluxos de informação.
“Saber como modelos à semelhança do Claude pensam permitirá ter um melhor entendimento das suas capacidades, assim como ajudar-nos a assegurar que funcionam como pretendido”, realçam.
Veja o vídeo
Ao usarem o “microscópio de IA”, os investigadores descobriram que o Claude é capaz de planear rimas de antemão ao escrever poesia. Por exemplo, quando lhe é pedido para criar duas frases que rimem, ainda antes de começar a segunda, o modelo já está a pensar em possíveis palavras que “encaixem”.
O Claude é capaz de falar várias línguas, no entanto, o modelo não tem seções separadas na sua “mente” para cada um dos idiomas. A equipa descobriu que o modelo usa uma “linguagem de pensamento” comum entre as línguas que sabe falar, o que sugere que é capaz de aprender algo num determinado idioma e de aplicar esse conhecimento quando está a falar outra língua.
Embora não tenha sido treinado para funcionar como uma calculadora, o modelo consegue fazer algumas contas de cabeça, em particular as que envolvem a soma de diferentes números. Para chegar ao resultado, os dois lados do “cérebro” do Claude trabalham em conjunto. Um lado apresenta uma estimativa e o outro tenta determinar o último dígito da soma com maior precisão, explicam os investigadores.
Além disso, quando lhe é pedido para realizar uma tarefa que envolve um raciocínio com múltiplos passos, o Claude realiza uma série de passos conceptuais intermédios. “O modelo está a combinar factos independentes para chegar a uma resposta em vez de regurgitar uma resposta memorizada”, indica a equipa.
Por outro lado, os investigadores descobriram um lado mais “sombrio”, com o Claude a tentar enganar os utilizadores quando há um conflito entre diferentes instruções ou objetivos.
As versões mais recentes do Claude são capazes de raciocinar durante algum tempo antes de apresentarem uma resposta final. No entanto, os resultados nem sempre são os esperados, uma vez que o modelo também é capaz de inventar explicações que parecem plausíveis e convincentes, mas que, na verdade, estão erradas.
Os investigadores indicam que modelos como Claude contam com um mecanismo concebido para evitar “alucinações”, ou seja, quando não sabem a resposta a uma determinada pergunta, optam simplesmente por não responder. Porém, o mecanismo não é perfeito e, ao manipulá-lo, é possível fazer com que o modelo “alucine” e invente informação acerca de tópicos que desconhece.
A equipa notou também que o Claude não é totalmente imune a táticas de “jailbreaking”, isto é, a técnicas concebidas para contornar os seus mecanismos de segurança. Em certos casos, o modelo reconhece que está perante um pedido potencialmente prejudicial, mas só se apercebe disso “a meio” da resposta.
Pergunta do Dia
Em destaque
-
Multimédia
Xiaomi "ataca" Porsche e automóveis de alta cilindrada com o elétrico SU7 Ultra abaixo dos 70 mil euros -
App do dia
Mister Antonio: Salte entre planetas e resolva desafios para agradar a um gato muito exigente -
Site do dia
Tem uma montanha de tarefas pela frente? Esta extensão ajuda a manter tudo organizado a partir do browser -
How to TEK
Aumente a privacidade e “tape os ouvidos” ao seu smartphone
Comentários