A OpenAI anunciou o lançamento de uma nova série de modelos de linguagem “concebidos para passarem mais tempo a pensar antes de responderem”, como faria um humano. A dona do ChatGPT explica que os novos modelos podem raciocinar através de tarefas complexas e resolver problemas mais difíceis do que os modelos anteriores, em áreas como ciência, código e matemática. A primeira amostra do OpenAI o1 está disponível desde esta quinta-feira no ChatGPT e na API da OpenAI, numa preview, com melhorias e atualizações prometidas para os próximos tempos.

A OpenAI diz que o o1 pode ser utilizada por investigadores da área da saúde para anotar dados de sequenciação de células, por físicos para gerar fórmulas matemáticas complicadas para ótica quântica, ou por programadores de todas as áreas para criar e executar fluxos de trabalho em várias etapas.

A empresa admite no entanto que, sendo este um modelo ainda inicial, não tem muitas das caraterísticas que tornam o ChatGPT útil, como navegar na Web para obter informações e carregar ficheiros e imagens. Por isso diz que “para muitos casos comuns, o GPT-4o será mais capaz a curto prazo”.

Já “para tarefas de raciocínio complexas, este é um avanço significativo e representa um novo nível de capacidade de IA” e é esse avanço significativo que justifica a revisão do contador de versões da tecnologia, que volta assim ao início.

Os modelos o1 “através do treino aprendem a aperfeiçoar o seu processo de pensamento, a experimentar estratégias diferentes e a reconhecer os seus erros”, detalha uma publicação da OpenAI no blog oficial.

Os testes realizados permitem afirmar que a próxima atualização do modelo “terá um desempenho semelhante ao de estudantes de doutoramento em tarefas de referência exigentes em física, química e biologia”, acrescenta-se.

Os resultados dos testes também foram promissores em matemática e programação. Num exame de qualificação para a Olimpíada Internacional de Matemática (IMO), o GPT-4o resolveu corretamente 13% dos problemas, o novo modelo conseguiu ter sucesso em 83% dos problemas. As capacidades de programação também foram avaliadas em concursos e atingiram o percentil 89 nas competições Codeforces.

Os avanços conseguidos neste novo modelo têm igualmente impacto ao nível da segurança, garante a OpenAI. “Ao ser capaz de raciocinar sobre as nossas regras de segurança no contexto, o modelo pode aplicá-las de forma mais eficaz”. Na prática isto significa que o modelo está mais preparado para continuar a seguir as suas regras de segurança, quando um utilizador as tentar contornar. Num dos testes de jailbreaking mais exigentes que a OpenAI realizou, o GPT-4o obteve 22 pontos (numa escala de 0-100) e esta primeira versão do o1 conseguiu 84 pontos.

A OpenAI ainda explica que para reforçar compromissos na área da segurança assinou acordos recentes com Institutos de Segurança de IA dos EUA e do Reino Unido. Estes acordos, já em ação, dão acesso antecipado às versões de investigação dos modelos da OpenAI e isso já se verificou com o o1.