Direcionado a utilizadores com perturbações da fala, a tecnologia da Xiaomi utiliza algoritmos avançados e tecnologia de voz para o campo da acessibilidade. Na prática, utiliza texto-to-speech num formato espontâneo, ou seja, cada utilizador pode ter uma voz única e personalizada que replicar as suas mensagens escritas.
Criado no Xiaomi AI Lab, os utilizadores podem comunicar com a sua “própria voz” que substitui os habituais sistemas de voz eletrónica, que acabam por ser monótonas e sem expressão. O projeto “Own My Voice” foi considerado bem-sucedido, com a fabricante chinesa a afirmar que é mais um passo na sua missão de ajudar as pessoas a desfrutarem de uma vida melhor através de tecnologia inovadora.
Para desenvolver o sistema de voz mais adequado e personalizado para o destinatário, a equipa de investigação recrutou mais de 200 voluntários da Xiaomi para doarem as suas vozes. Foi usado um algoritmo de correspondência de vozes para fazer corresponder as características das vozes doadas pelos voluntários com as da voz do destinatário. Neste formato, foi encontrada a voz mais adequada como o som básico de referência de voz para o destinatário.
A Xiaomi explica que considerando a personalização e proteção da privacidade, a voz real que foi escolhida foi manipulada com modificações acústicas complexas, de forma a criar um som de voz novo e original. Depois de escolhida a voz, os investigadores da empresa utilizaram tecnologia texto-to-speech de estilo espontâneo para treinar o respetivo modelo de inteligência artificial. Dessa forma, a nova voz foi ganhando um ritmo natural, de forma gradual, com entoações capazes de expressar realisticamente a emoção e tons de um humano. A tecnologia permitiu criar uma genuinidade elevada da voz sintetizada e personalizada para utilizadores com perturbações da fala.
O sucesso de "Own My Voice" depende principalmente da tecnologia Text-To-Speech de estilo espontâneo desenvolvida pela Xiaomi AI Lab. Esta assume comportamentos humanos, desde a entoação, pausa, velocidade e outras características de uma conversação natural. O sistema pode ser adotado de forma mais ampla nas áreas de acessibilidade para melhorar a experiência do utilizador.
Os investigadores vão receber o feedback dos destinatários da voz e continuar a estudar a possibilidade de expandir o projeto a uma gama mais alargada.
Pergunta do Dia
Em destaque
-
Multimédia
Dezenas de jogos anunciados nos The Game Awards: Produtora de The Last of Us tem novo título e há mais Elden Ring -
Site do dia
Daily Tally quer ajudá-lo a ouvir o inconsciente e a controlar o seu destino -
App do dia
Eggy Party é um battle royale bem-disposto e colorido -
How to TEK
Acelere a experiência de navegação no Chrome com as novas ferramentas disponíveis
Comentários