
São só memes? A ideia é que o ChatGPT crie mais imagens de contexto, mas os memes foram uma das bases de exemplo do potencial da nova funcionalidade que a OpenAI acaba de anunciar, e que Sam Altman diz que traz o efeito Uau que já não sentia há algum tempo.
No livestream de apresentação do gerador de imagem, que está agora disponível no GPT‑4o, o CEO da OpenAI diz que o objetivo de integrar a capacidade de criar imagens dentro dos seus modelos de LLM era uma das prioridades, e que a ideia é que as imagens sejam não só bonitas, mas úteis.
Para mostrar um exemplo, Sam Altman tirou uma selfie com os companheiros de apresentação. A imagem foi incluída no ChatGPT e foi pedido a transformação em meme. Ainda demorou algum tempo, durante o qual foram sendo apresentadas as datas de disponibilização, mas o resultado foi apresentado em direto.

Veja alguns dos exemplos partilhados de imagens criadas
A OpenAI quer que seja tão fácil criar imagens como fazer uma conversa com o GPT, descrevendo o que quer e incluindo especificações como tamanho, cores ou fundos. Mas pode ser demorado e exigir alguma paciência. "Como o modelo cria imagens mais detalhadas podem demorar algum tempo a renderizar, por vezes mais de um minuto", explica.
A OpenAI já tinha apresentado o Sora para o vídeo, e o Dall-E (já na geração 3) para criação de imagens, mas ainda funcionavam de forma separada. Este é mais um passo para ter um verdadeiro modelo multimodal, como sublinha o CEO da empresa.
Não é certamente alheio a esta apresentação o facto de Elon Musk estar a partilhar nos últimos duas as novas funcionalidades de edição de imagem do seu modelo de IA Generativa, o Grok. A corrida para adicionar mais funcionalidades aos modelos de LLM tem sido renhida e parece que todos os dias há novidades do lado das diferentes empresas que tentam ganhar espaço no mercado de chatbots e agentes de Inteligência Artificial Generativa.
Criar imagens com base em texto e contexto
A OpenAI explica que o modelo foi treinado na distribuição em conjunto de imagens e texto online, e aprende não apenas na forma como as imagens se relacionam com a linguagem mas também entre si. O trabalho de pós-treino resulta num modelo onde as imagens criadas são consistentes e sensíveis ao contexto
Veja o vídeo partilhado pela OpenAI
Com a integração no ChatGPT, é possível ir editando as imagens ao longo da conversa, seguindo o contexto do que está a acontecer. E a OpenAI diz que garante a coerência ao longo das interações que o utilizador vai tendo, usando como exemplo a criação de uma personagem de um videojogo, que é um gato detetive.
Sam Altman admite que ainda existem algumas limitações e que o modelo não é perfeito, mas está a evoluir. E garante que não quer limitar a liberdade criativa, mas que serão aplicados bloqueios a temas que violem as regras de segurança. E a transparência também é importante, por isso todas as imagens têm metadados C2PA e há um motor que permite verificar se determinado conteúdo foi gerado pelo modelo GPT-4o.
Abuso sexual de crianças, deepfakes sexuais e nudez ou violência gráfica fazem parte do tipo de conteúdos bloqueados.
A nova funcionalidade fica hoje disponível para utilizadores do GPT-4o Plus, Pro, Team e também para o acesso gratuito e no Sora, mas também no DALL-E GPT. Em breve deve chegar aos modelos Enterprise e Edu e também os developers vão poder gerar imagens através da API, nas próximas semanas.
Nota da Redação: A notícia foi atualizada com mais informação e imagens durante a apresentação. Última atualização 19h02
Pergunta do Dia
Em destaque
-
Multimédia
Neo Gamma: há mais um robot humanoide candidato a empregado doméstico -
App do dia
Apple Invites é uma nova app de eventos para facilitar o envio de convites -
Site do dia
Video Game History Foundation: Biblioteca com livros e revistas digitais sobre videojogos para consulta -
How to TEK
Não quer o Copilot no Windows 365 Pessoal e Familiar? Saiba como desativar as opções
Comentários