VALL-E: IA da Microsoft consegue replicar qualquer voz depois de a ouvir por três segundos

11 jan 2023 19:14

Este artigo tem mais de 3 anos

A tecnologia da Microsoft é capaz de emular o timbre do locutor e a acústica do espaço onde as palavras foram proferidas.

A Microsoft mostrou progressos no que toca à conversão autónoma de texto para voz. A tecnológica criou um modelo de inteligência artificial, chamado VALL-E, que consegue emular qualquer voz com base num pequeno sample de três segundos. Segundo escreve a ArsTechnica, o resultado não só replica o timbre, como também o tom em que as palavras são ditas e a acústica do espaço em que foram proferidas.

A ideia da empresa é afinar o modelo para que este possa ser integrado em aplicações de conversão de texto, embora exista sempre o risco de vermos a tecnologia a ser utilizada para fins menos nobres, como é o caso dos deepfakes.

O VALL-E é aquilo a que a Microsoft chama de "modelo de linguagem de codec neural". Num paper publicado recentemente, a gigante norte-americana explica como o VALL-E foi treinado, com a exposição a 60.000 horas de discurso falado em língua inglesa, proferido por mais de 7.000 pessoas. Os clips foram obtidos no arquivo de áudios da Meta, LibriLight e o próprio modelo deriva da rede neural de compressão de áudio, Encodec, também ele da Meta.

Numa primeira fase, a Microsoft tentou garantir que a IA conseguia replicar as vozes que ouvia, tal como as ouvia. Os dados gerados eram depois utilizados para emular a voz com mensagens de texto, inferindo como é que o locutor humano soaria se a estivesse a proferir.

A equipa responsável pelo modelo mostra como é que tudo isto funciona, na página de Github em que ele foi carregado.

Para cada clip de demonstração da IA, a Microsoft junta um clip de voz de três segundos do locutor humano, uma segunda frase do locutor, que serve como padrão de comparação, uma conversão de texto para voz convencional e o clip da VALL-E, para rematar a experiência.

Os resultados são mistos, com alguns a parecerem demasiado robóticos e com outros a assemelharem-se bastante a vozes humanas. Estes últimos são particularmente surpreendentes por reterem o tom do locutor humano e a acústica, mesmo com frases diferentes do sample usado para treinar a IA.

A Microsoft quer intensificar os "treinos", nesta fase, uma vez que tem a ambição de tornar a IA capaz de replicar a métrica e o estilo de fala do locutor, na perfeição.

A tecnológica decidiu não disponibilizar o código em open-source. "Uma vez que o VALL-E consegue sintetizar conversas, mantendo a identidade do locutor, existem alguns riscos inerentes à utilização do modelo, como a imitação ou a falsificação", escreveu a Microsoft acerca dos possíveis impactos desta criação.