Os chatbots de IA não são “imunes” à chantagem, como mostram, por exemplo, os testes de segurança e ética feitos pela Anthropic antes de lançar a mais recente versão do Claude. Este cenário levou Yoshua Bengio, considerado como um dos pioneiros nesta área, a lançar uma nova iniciativa.

A LawZero tem como objetivo desenvolver soluções de IA mais “honestas”, que sejam capazes de detetar quando um sistema tenta enganar os utilizadores. Liderada pelo investigador, a iniciativa conta com um financiamento de cerca de 30 milhões de dólares, avança o The Guardian.

Entre as soluções que estão a ser desenvolvidas pelos investigadores da LawZero está um novo sistema, chamado Scientist AI, que funcionará como uma espécie de mecanismo de segurança contra agentes de IA que se tentem virar contra humanos.

Ao contrário das atuais ferramentas de IA generativa, o sistema proposto não apresenta respostas definitivas, mas sim probabilidades quanto à veracidade de uma resposta. Ao ser implementado junto de um agente de IA, o Scientist AI sinalizará comportamentos potencialmente perigosos, avaliando a probabilidade de as suas ações causarem danos.

Veja o vídeo

Citado pelo jornal britânico, Yoshua Bengio explica que, na prática, o Scientist AI servirá como um “psicólogo” que consegue compreender e prever comportamentos prejudiciais. “Queremos desenvolver sistemas de IA que sejam honestos e não enganadores”, realça.

Para a iniciativa, o primeiro passo será demonstrar que a sua metodologia funciona, adaptando e treinando modelos de IA abertos e disponíveis gratuitamente. De seguida, a LawZero quer incentivar empresas e governos a apoiarem o desenvolvimento de modelos “honestos” numa maior escala.

Entre os investidores iniciais da LawZero estão o Future of Life Institute; Jaan Tallinn, um dos fundadores do Skype; e a Schmidt Sciences, uma instituição na área da investigação fundada por Eric Schmidt, antigo diretor executivo da Google.