São só memes? A ideia é que o ChatGPT crie mais imagens de contexto, mas os memes foram uma das bases de exemplo do potencial da nova funcionalidade que a OpenAI acaba de anunciar, e que Sam Altman diz que traz o efeito Uau que já não sentia há algum tempo.

No livestream de apresentação do gerador de imagem, que está agora disponível no GPT‑4o, o CEO da OpenAI diz que o objetivo de integrar a capacidade de criar imagens dentro dos seus modelos de LLM era uma das prioridades, e que a ideia é que as imagens sejam não só bonitas, mas úteis.

Para mostrar um exemplo, Sam Altman tirou uma selfie com os companheiros de apresentação. A imagem foi incluída no ChatGPT e foi pedido a transformação em meme. Ainda demorou algum tempo, durante o qual foram sendo apresentadas as datas de disponibilização, mas o resultado foi apresentado em direto.

OpenAI com nova ferramenta de geração de imagem Sam Altman
OpenAI com nova ferramenta de geração de imagem Sam Altman

Veja alguns dos exemplos partilhados de imagens criadas

A OpenAI quer que seja tão fácil criar imagens como fazer uma conversa com o GPT, descrevendo o que quer e incluindo especificações como tamanho, cores ou fundos. Mas pode ser demorado e exigir alguma paciência. "Como o modelo cria imagens mais detalhadas podem demorar algum tempo a renderizar, por vezes mais de um minuto", explica.

Sora: o ChatGPT que transforma texto em vídeos realistas já chega a utilizadores premium
Sora: o ChatGPT que transforma texto em vídeos realistas já chega a utilizadores premium
Ver artigo

A OpenAI já tinha apresentado o Sora para o vídeo, e o Dall-E (já na geração 3) para criação de imagens, mas ainda funcionavam de forma separada. Este é mais um passo para ter um verdadeiro modelo multimodal, como sublinha o CEO da empresa.

Não é certamente alheio a esta apresentação o facto de Elon Musk estar a partilhar nos últimos duas as novas funcionalidades de edição de imagem do seu modelo de IA Generativa, o Grok. A corrida para adicionar mais funcionalidades aos modelos de LLM tem sido renhida e parece que todos os dias há novidades do lado das diferentes empresas que tentam ganhar espaço no mercado de chatbots e agentes de Inteligência Artificial Generativa.

Criar imagens com base em texto e contexto

A OpenAI explica que o modelo foi treinado na distribuição em conjunto de imagens e texto online, e aprende não apenas na forma como as imagens se relacionam com a linguagem mas também entre si. O trabalho de pós-treino resulta num modelo onde as imagens criadas são consistentes e sensíveis ao contexto

Veja o vídeo partilhado pela OpenAI

Com a integração no ChatGPT, é possível ir editando as imagens ao longo da conversa, seguindo o contexto do que está a acontecer. E a OpenAI diz que garante a coerência ao longo das interações que o utilizador vai tendo, usando como exemplo a criação de uma personagem de um videojogo, que é um gato detetive.

Sam Altman admite que ainda existem algumas limitações e que o modelo não é perfeito, mas está a evoluir. E garante que não quer limitar a liberdade criativa, mas que serão aplicados bloqueios a temas que violem as regras de segurança. E a transparência também é importante, por isso todas as imagens têm metadados C2PA⁠ e há um motor que permite verificar se determinado conteúdo foi gerado pelo modelo GPT-4o.

Abuso sexual de crianças, deepfakes sexuais e nudez ou violência gráfica fazem parte do tipo de conteúdos bloqueados. 

A nova funcionalidade fica hoje disponível para utilizadores do GPT-4o Plus, Pro, Team e também para o acesso gratuito e no Sora, mas também no DALL-E GPT. Em breve deve chegar aos modelos Enterprise e Edu e também os developers vão poder gerar imagens através da API, nas próximas semanas.

Nota da Redação: A notícia foi atualizada com mais informação e imagens durante a apresentação.  Última atualização 19h02