Há novidades por parte da OpenAI no que diz respeito às capacidades da inteligência artificial no capítulo do áudio. A detentora do ChatGPT partilhou os resultados preliminares de um modelo em desenvolvimento, chamado Voice Engine, que usa uma entrada de texto e uma única amostra de áudio de 15 segundos.

Segundo a OpenAI, o modelo consegue gerar uma fala com som natural que se assemelha muito ao locutor original, criando “vozes emotivas e realistas”, algo que classifica como “notável”.

O Voice Engine começou a ser desenvolvido no final de 2022, usado para potencializar as vozes predefinidas disponíveis na API de conversão de texto em fala, bem como no ChatGPT Voice e Read Aloud, explica a empresa.

Como o áudio Deepfake pode interferir nas eleições: Governos e cidadãos devem estar atentos à desinformação
Como o áudio Deepfake pode interferir nas eleições: Governos e cidadãos devem estar atentos à desinformação
Ver artigo

A OpenAI refere que está a adotar uma abordagem cautelosa quanto a uma utilização e lançamento amplos, devido ao potencial de utilização indevida que a tecnologia comporta, como alguns golpes que já circulam, de telefonar ou enviar áudios para parentes a pedir dinheiro. Também há preocupações relacionadas com as eleições, como um incidente recente em que foi usada a voz do Presidente dos Estados Unidos, Joe Biden, em chamadas automáticas, com um apelo para os norte-americanos não votarem nas primárias de janeiro em New Hampshire.

Por outro lado, a tecnologia também promete benefícios, como a assistência de leitura para não leitores, tradução instantânea ou a ajuda a pessoas com problemas de voz. A OpenAI apresenta vários exemplos daquilo que tem vindo a fazer com o Voice Engine a partir do seu blog, mostrando o potencial da ferramenta em várias áreas.

“O Voice Engine é uma continuação do nosso compromisso de compreender a fronteira técnica e partilhar abertamente o que se está a tornar possível com a IA”, refere a OpenAI. “Em linha com a nossa abordagem à segurança da IA e com os nossos compromissos voluntários, optamos por pré-visualizar, mas não divulgar amplamente esta tecnologia neste momento”, acrescenta.

A empresa espera tomar uma decisão mais informada “sobre se e como implementar esta tecnologia em escala” com base nas conversas e nos resultados dos testes em pequena escala que tem vindo a conduzir.

“Esperamos que esta amostra do Voice Engine ressalte o seu potencial e também motive a necessidade de reforçar a resiliência da sociedade contra os desafios trazidos por modelos generativos cada vez mais convincentes”, escreve ainda no artigo.