Foi anunciada como um passo excitante no desenvolvimento do ChatGPT, com a integração da funcionalidade multimodal e a possibilidade de pedir ao chatbot para criar imagens no decorrer de uma conversa, usando o GPT-4o e beneficiando de todo o contexto, sem ter de sair para usar o DALL-E ou o Sora. E primeiro estava disponível para todos, mesmo os utilizadores da opção gratuita, mas agora Sam Altman mudou de ideias.

Nas redes sociais o fundador da OpenAI diz que a ferramenta se revelou mais popular do que era esperado, apesar das expectativas serem altas, e que o roll out da criação de imagens para os utilizadores da versão gratuita do ChatGPT vai ter de ser adiada.

Os utilizadores reagiram com memes, como seria de esperar, antecipando problemas nos servidores da OpenAI.

meme de retirada da funcionalidade de imagens na OpenAI
meme de retirada da funcionalidade de imagens na OpenAI

Continua a ser possível criar imagens dentro do ChatGPT, mesmo na versão gratuita, com o DALL-E,  que já está integrado no chat desde 2023.

Antes de decidir retirar o acesso à criação de imagens aos utilizadores, Sam Altman já tinha partilhado que estava a ter grande tração. Não faltaram posts de pessoas a partilhar imagens de memes, recriação de cenas de filmes e de pessoas famosas, mas a tendência mais popular foi a de criar imagens com o estilo do ghibli, criado pelo estúdio japonês Ghibli.

O próprio Sam Altman diz ter recebido centenas de imagens de pessoas que o transformaram num twink ghibli. Mudou a sua imagem de perfil no X mas pediu para lhe criarem uma melhor, e não faltaram propostas.

Veja algumas das imagens partilhadas 

Não ficou claro quando é que a ferramenta vai voltar a estar disponível na versão gratuita, mas continua a ser possível usar o GPT-4o para criação de imagens no Pro e Plus.

Criar imagens com base em texto e contexto

A OpenAI quer que seja tão fácil criar imagens como fazer uma conversa com o GPT, descrevendo o que quer e incluindo especificações como tamanho, cores ou fundos. Mas pode ser demorado e exigir alguma paciência. "Como o modelo cria imagens mais detalhadas podem demorar algum tempo a renderizar, por vezes mais de um minuto", explica.

Veja algumas das imagens partilhadas na apresentação da ferramenta

Sora: o ChatGPT que transforma texto em vídeos realistas já chega a utilizadores premium
Sora: o ChatGPT que transforma texto em vídeos realistas já chega a utilizadores premium
Ver artigo

A OpenAI já tinha apresentado o Sora para o vídeo, e o DALL-E (já na geração 3) para criação de imagens, estando este último integrado no ChatGPT desde 2023. Agora a versão é mais poderosa, e Sam Altman apresenta a novidade como mais um passo para ter um verdadeiro modelo multimodal.

A OpenAI explica que o modelo foi treinado na distribuição em conjunto de imagens e texto online, e aprende não apenas na forma como as imagens se relacionam com a linguagem mas também entre si. O trabalho de pós-treino resulta num modelo onde as imagens criadas são consistentes e sensíveis ao contexto

Veja o vídeo partilhado pela OpenAI

Com a integração no ChatGPT, é possível ir editando as imagens ao longo da conversa, seguindo o contexto do que está a acontecer. E a OpenAI diz que garante a coerência ao longo das interações que o utilizador vai tendo, usando como exemplo a criação de uma personagem de um videojogo, que é um gato detetive.

Sam Altman admite que ainda existem algumas limitações e que o modelo não é perfeito, mas está a evoluir. E garante que não quer limitar a liberdade criativa, mas que serão aplicados bloqueios a temas que violem as regras de segurança. E a transparência também é importante, por isso todas as imagens têm metadados C2PA⁠ e há um motor que permite verificar se determinado conteúdo foi gerado pelo modelo GPT-4o.

Abuso sexual de crianças, deepfakes sexuais e nudez ou violência gráfica fazem parte do tipo de conteúdos bloqueados. 

A nova funcionalidade ficou imediatamente disponível para utilizadores do GPT-4o Plus, Pro, Team e também para o acesso gratuito e no Sora, mas também no DALL-E GPT, mas foi agora retirada da versão gratuita. Em breve deve chegar aos modelos Enterprise e Edu e também os developers vão poder gerar imagens através da API, nas próximas semanas.

Nota da Redação: A notícia foi alterada para mais detalhes em relação à diferença entre o novo modelo e o DALL-E. Última atualização 12h10