A Meta, dona do Facebook, apresentou um novo modelo de linguagem de inteligência artificial generativa. Chama-se Movie Gen e, diz a empresa, que é tão ou mais poderoso como o Sora desenvolvido pela OpenAI, pelo menos em algumas áreas.

“Enquanto conjunto de modelos de narração de história mais avançado e imersivo, o Movie Gen tem quatro capacidades: geração de vídeo, geração de vídeo personalizado, edição de vídeo precisa e geração de áudio”, garante a Meta numa nota publicada no blog oficial.

Veja o vídeo da Meta mostra-se a capacidade de edição do Movie Gen 

Na publicação mostra-se que, a partir de simples comandos de texto, é possível acrescentar elementos de som e imagem a conteúdos em vídeo. Nos exemplos há um pinguim que passa a caminhar com um vestido, uma DJ que anima o cenário com um tigre que parece real, ou um hipopótamo a nadar debaixo de água. Mostra-se ainda a possibilidade de pedir ao modelo para juntar som a imagens, tendo em conta o conteúdo exibido, ou alinhar esse som com diferentes momentos da imagem, variando a intensidade do volume, por exemplo.

“O Movie Gen é a nossa terceira vaga [de modelos de linguagem] e combina todas as modalidades anteriores, permitindo um controlo ainda mais preciso para as pessoas que utilizam os modelos”, explica ainda a Meta.

Os modelos usados para criar o Movie Gen foram treinados com dados licenciados e publicamente disponíveis. Permitem criar vídeos com um máximo de 16 segundos e áudios com até 45 segundos.

Meta comparativo - Movie Gen
Meta comparativo - Movie Gen créditos: Meta

Segundo uma análise da própria Meta, recorrendo a indicadores de referência para o efeito, em algumas áreas o Movie Gen consegue melhores resultados que os da concorrência. Ainda assim, a companhia admite que este é um trabalho em progresso, com ajustes para fazer e promete continuar à procura de melhores resultados.

Ao pedido de um vídeo com um koala fofinho o Movie Gen dá este resultado

Foi partilhado um paper com os resultados da investigação que conduziram até aqui, se bem que ao contrário do que fez com o modelo anterior, não é provável que a dona do Facebook abra o código do modelo para programadores. Um porta-voz da empresa disse à Reuters que é pouco provável este movimento, explicando que a avaliação dos riscos associados a cada modelo é feita individualmente.

Este é mais um exemplo da qualidade de imagens de vídeo geradas

Em vez disso, a Meta diz que está a trabalhar diretamente com a comunidade de entretenimento e criadores de conteúdos para que estes usem o modelo. Também revelou que deve incorporá-lo nos seus próprios produtos durante o próximo ano.

Veja os resultados para pedidos de um vídeos sincronizados com som