Direcionado a utilizadores com perturbações da fala, a tecnologia da Xiaomi utiliza algoritmos avançados e tecnologia de voz para o campo da acessibilidade. Na prática, utiliza texto-to-speech num formato espontâneo, ou seja, cada utilizador pode ter uma voz única e personalizada que replicar as suas mensagens escritas.
Criado no Xiaomi AI Lab, os utilizadores podem comunicar com a sua “própria voz” que substitui os habituais sistemas de voz eletrónica, que acabam por ser monótonas e sem expressão. O projeto “Own My Voice” foi considerado bem-sucedido, com a fabricante chinesa a afirmar que é mais um passo na sua missão de ajudar as pessoas a desfrutarem de uma vida melhor através de tecnologia inovadora.
Para desenvolver o sistema de voz mais adequado e personalizado para o destinatário, a equipa de investigação recrutou mais de 200 voluntários da Xiaomi para doarem as suas vozes. Foi usado um algoritmo de correspondência de vozes para fazer corresponder as características das vozes doadas pelos voluntários com as da voz do destinatário. Neste formato, foi encontrada a voz mais adequada como o som básico de referência de voz para o destinatário.
A Xiaomi explica que considerando a personalização e proteção da privacidade, a voz real que foi escolhida foi manipulada com modificações acústicas complexas, de forma a criar um som de voz novo e original. Depois de escolhida a voz, os investigadores da empresa utilizaram tecnologia texto-to-speech de estilo espontâneo para treinar o respetivo modelo de inteligência artificial. Dessa forma, a nova voz foi ganhando um ritmo natural, de forma gradual, com entoações capazes de expressar realisticamente a emoção e tons de um humano. A tecnologia permitiu criar uma genuinidade elevada da voz sintetizada e personalizada para utilizadores com perturbações da fala.
O sucesso de "Own My Voice" depende principalmente da tecnologia Text-To-Speech de estilo espontâneo desenvolvida pela Xiaomi AI Lab. Esta assume comportamentos humanos, desde a entoação, pausa, velocidade e outras características de uma conversação natural. O sistema pode ser adotado de forma mais ampla nas áreas de acessibilidade para melhorar a experiência do utilizador.
Os investigadores vão receber o feedback dos destinatários da voz e continuar a estudar a possibilidade de expandir o projeto a uma gama mais alargada.
Pergunta do Dia
Em destaque
-
Multimédia
SU7 Ultra é o novo carro desportivo da Xiaomi e chega ao mercado em 2025. Preço já foi divulgado -
App do dia
App Abstractly mostra o poder da informação resumida com inteligência artificial -
Site do dia
É esquecido? Faça anotações rápidas em post-its diretamente numa página de internet -
How to TEK
O que é o formato de imagem Webp e como gravar facilmente no computador
Comentários