Ontem a Google alargou o número de países onde o modelo multimodal Gemini Pro está integrado no Bard, o seu assistente de inteligência artificial. Mas também anunciou a possibilidade de criar imagens diretamente no chat, com resultados foto realistas.

A base é o motor Imagen 2, que fica agora integrado com o Bard, ImageFX, Search e Vertex AI. Mas por enquanto nada disto está disponível para os utilizadores em Portugal.

O Imagen 2 é um modelo de criação de imagens, concorrente do DALL.E da OpenAI que alimenta o ChatGPT e o Copilot da Microsoft, e produz imagens foto realísticas com a ajuda de prompts bem direcionados, permitindo também a edição da imagem sem ter de voltar a repetir o processo.

Veja algumas das imagens criadas com o Imagen 2 e as prompts usadas

A qualidade das prompts do utilizador vai fazer a diferença nos resultados mas a qualidade dos detalhes e a precisão do resultado podem fazer a diferença entre modelos treinados com imagens, fazendo a ligação entre o texto e a imagem criada. Os rostos e as mãos são mais reais e adaptadas à estética baseada nas preferências humanas, com enquadramento, iluminação e detalhe.

As imagens podem ainda ser editadas durante o processo, com os modos de inpainting e outpainting, que se tornam úteis para adicionar elementos. Algumas destas funcionalidades só vão estar disponíveis mais tarde durante o ano de 2024.

Edição de imagem no Imagen 2 com o Bard Edição de imagem no Imagen 2 com o Bard

A Google tem uma API do Imagen no Google Cloud Vertex AI para os developers poderem explorar as funcionalidades. E pode ficar a saber mais sobre este modelo de imagens da Google com a documentação que foi publicada no Vertex AI, onde se detalham o funcionamento e possibilidades criativas.