A Meta não quer perder o barco da tecnologia em torno da inteligência artificial generativa, de forma a não perder o barco para o ChatGPT da OpenAI e o Bard da Google. O investimento foi anunciado em fevereiro, naquele que seria a continuação do seu trabalho de investigação nos chatbots que já utiliza desde 2016. O mais recente anúncio da empresa de Mark Zuckerberg é o CM3leon (pronuncia-se chameleon) e trata-se de uma IA generativa de conversão de texto em imagem de última geração.

Na prática é uma ferramenta para gerar imagens por IA como o Dall-E, CrAIyon, NightCafe e outros. Mas a Meta explica que a sua performance artística requer cinco vezes menos o uso de computação para treino quando recebe as instruções de texto, do que anteriores métodos de transformação. Aliás, a Meta afirma que os modelos existentes se baseiam na difusão e o novo modelo é de transformação.

Veja na galeria exemplos dos trabalhos "artísticos" do CM3leon:

Segundo a tecnológica, o CM3Leon utiliza a arquitetura CM3 multi-modal, mas é capaz de escalar e afinar mais estilos diversificados de instruções dos dados. É explicado que este é o primeiro modelo multi-modal treinado com a receita adaptada dos modelos de linguagem apenas de texto. E este modelo promete tanto compreender as instruções de texto para imagem, como ao contrário, imagem para texto. O modelo está a ser desenhado para demonstrar um alto nível de controlo das tarefas.

Entre algumas das suas características, a Meta diz que se trata de um modelo misto mascarado de casual, conseguindo gerar sequências de texto e imagem condicionadas por sequências aleatórias de outro conteúdo de texto e imagem. A empresa pretende alcançar uma melhor fidelidade de imagem e entendimento na conversão e vai lançar mais modelos no futuro.

Meta CM3Leon

O documento científico publicado pela Meta refere que é possível estender o treino no CM3Leon para inferir ideias originalmente desenvolvidas para modelos apenas de texto e dar uma reviravolta na sua narrativa. Foi também reforçado que este modelo apresentou uma eficiência de pré-treino porque utiliza uma nova base de dados Shutterstock de larga escala que apenas inclui imagens e texto licenciados.