A Microsoft mostrou progressos no que toca à conversão autónoma de texto para voz. A tecnológica criou um modelo de inteligência artificial, chamado VALL-E, que consegue emular qualquer voz com base num pequeno sample de três segundos. Segundo escreve a ArsTechnica, o resultado não só replica o timbre, como também o tom em que as palavras são ditas e a acústica do espaço em que foram proferidas.
A ideia da empresa é afinar o modelo para que este possa ser integrado em aplicações de conversão de texto, embora exista sempre o risco de vermos a tecnologia a ser utilizada para fins menos nobres, como é o caso dos deepfakes.
O VALL-E é aquilo a que a Microsoft chama de "modelo de linguagem de codec neural". Num paper publicado recentemente, a gigante norte-americana explica como o VALL-E foi treinado, com a exposição a 60.000 horas de discurso falado em língua inglesa, proferido por mais de 7.000 pessoas. Os clips foram obtidos no arquivo de áudios da Meta, LibriLight e o próprio modelo deriva da rede neural de compressão de áudio, Encodec, também ele da Meta.
Numa primeira fase, a Microsoft tentou garantir que a IA conseguia replicar as vozes que ouvia, tal como as ouvia. Os dados gerados eram depois utilizados para emular a voz com mensagens de texto, inferindo como é que o locutor humano soaria se a estivesse a proferir.
A equipa responsável pelo modelo mostra como é que tudo isto funciona, na página de Github em que ele foi carregado.
Para cada clip de demonstração da IA, a Microsoft junta um clip de voz de três segundos do locutor humano, uma segunda frase do locutor, que serve como padrão de comparação, uma conversão de texto para voz convencional e o clip da VALL-E, para rematar a experiência.
Os resultados são mistos, com alguns a parecerem demasiado robóticos e com outros a assemelharem-se bastante a vozes humanas. Estes últimos são particularmente surpreendentes por reterem o tom do locutor humano e a acústica, mesmo com frases diferentes do sample usado para treinar a IA.
A Microsoft quer intensificar os "treinos", nesta fase, uma vez que tem a ambição de tornar a IA capaz de replicar a métrica e o estilo de fala do locutor, na perfeição.
A tecnológica decidiu não disponibilizar o código em open-source. "Uma vez que o VALL-E consegue sintetizar conversas, mantendo a identidade do locutor, existem alguns riscos inerentes à utilização do modelo, como a imitação ou a falsificação", escreveu a Microsoft acerca dos possíveis impactos desta criação.
Pergunta do Dia
Em destaque
-
Multimédia
Protagonistas da Terra e do Espaço em imagens espetaculares escolhidas pela NASA -
App do dia
Reader é uma app com IA para ler em voz alta de forma natural -
Site do dia
Website "7 Minutes in Hell" propõe treinos HIIT para quem gosta de sofrer (literalmente) -
How to TEK
Torne o smartphone Android mais inteligente trocando o Google Assistant pelo Gemini
Comentários