Ontem a OpenAI apresentou o seu novo modelo de inteligência artificial generativa, o GPT-4o, que vai chegar gratuitamente a todos os utilizadores nas próximas semanas. Nesta batalha pela liderança da IA, a empresa de Sam Altman procurou antecipar-se ao grande evento anual Google I/O, que se realiza hoje às 18h00 (hora de Lisboa).

ChatGPT chega ao desktop com novo design. GPT-4o é o próximo passo da IA generativa da OpenAI
ChatGPT chega ao desktop com novo design. GPT-4o é o próximo passo da IA generativa da OpenAI
Ver artigo

O certo é que a Google em resposta, deixou um teasing da nova versão do Gemini, um pequeno vídeo que deixa antecipar o que vai acontecer logo no Shoreline Amphitheatre em Mountain View, a sede da empresa na Califórnia. Durante a montagem do palco, foi pedido ao modelo de IA que analisasse o que estava a acontecer. O modelo respondeu que se estava a montar um palco, “para um grande evento, talvez uma conferência ou apresentação.

Mas o interessante é que o Gemini não acabou a conversa com a descrição, mas sim com uma pergunta: “Alguma coisa que te tenha chamado a atenção?” A IA devolveu ao utilizador a palavra, o que de forma natural respondeu que tinha notado nas grandes letras no ecrã, que formavam o logotipo do evento e perguntou o que significavam. Nesta interação o modelo não apenas explicou o que era o Google I/O, como perguntou ao utilizador se alguma vez tinha assistido ao evento.

Este pormenor de interação tornou a conversa entre o utilizador e o modelo bem mais natural, como se duas pessoas estivessem a falar. Esta capacidade de interpretar o meio ambiente ficou também patente na demonstração do GPT-4o, que mesmo com algumas “gafes”, parecia muito natural, por vezes, exageradamente natural.

Ainda não se sabem os planos da Google, mas do lado da OpenAI, o seu novo modelo flagship de IA utiliza um sistema omnimodelo nativo entre voz, texto e visão. Neste caso, o "o" é a abreviação de Omni. Isso significa que o utilizador pode combinar diferentes formas de input de informação, seja por texto, por áudio/voz e imagens. E a possibilidade de ambos os modelos da Google e OpenAI utilizarem a câmara do smartphone para ver aquilo que o utilizador quiser mostrar e ter a capacidade da respetiva interpretação.

Entrando em detalhes, a OpenAI diz que o seu modelo consegue responder até 232 milissegundos, registando uma média de 320 milissegundos, que é semelhante à capacidade de resposta de um humano durante uma conversa. A empresa promete oferecer uma maior compreensão de visão e áudio que os modelos existentes no seu novo GPT-4o.

O novo modelo foi treinado de ponta-a-ponta com texto, visão e áudio, com todos os inputs e outputs processados pela mesma rede neural. A OpenAI diz que este é o seu primeiro modelo a combinar todos estes formatos e por isso, diz que está apenas a “arranhar a superfície” na exploração do que o modelo consegue fazer e as suas limitações.

As demonstrações da OpenAI, que pode ver nos vídeos, assim como o teasing da Google salientam outra coisa: depois destas interações, dificilmente iremos olhar para os atuais assistentes virtuais da mesma forma. Google Assistant, Alexa ou Siri são monocórdicos, robóticos e limitados quando comparado com as conversações naturais que estes novos modelos apresentam. Será que finalmente os assistentes vão ser substituídos pela IA generativa?

Até porque entre outras capacidades demonstradas, o GPT-4o mostrou-se ser capaz de contar histórias, mudando o tom dramático consoante era pedido e até a cantar. Uma demonstração que não apenas mostra as suas capacidades, como abre portas ao seu potencial quando integrado em outros produtos, como brinquedos ou jogos, por exemplo.

Outro aspeto interessante na demonstração realizada ontem pela equipa de Muri Murati, CTO da OpenAI, é que a IA pode ser interrompida a meio, receber novos inputs do utilizador e continuar a partir daí. Exatamente como uma conversa natural entre duas pessoas.

Noutro vídeo partilhado de demonstração do GPT-4o colocou-se dois modelos, em smartphones diferentes, a conversarem entre si com uma particularidade: um tinha a câmara ligada para ver o mundo em redor a outra apenas ouvia. O resultado foi um sistema a fazer perguntas ao outro, que descria aquilo que via em redor. Na segunda parte foi pedido à IA para transformar as descrições do que tinha visto na sala do teste em música, acabando os dois modelos a cantar alternadamente.

Esta nova geração de modelos de IA parece mais natural, mesmo com os respetivos enganos mostrados nos testes. Mas parece ser mais fácil e útil, seja para ajudas de traduções em tempo real, como nas conversas fluidas com a informação disponível. A partir daqui é possível tentar adivinhar as utilizações práticas que podem ter.

A “bola” agora está do lado da Google, com aquilo que vai mostrar durante o evento I/O sobre as novidades do Gemini, esta tarde.