Projeto “Own My Voice” da Xiaomi quer “dar voz” a utilizadores com distúrbios da fala

Rui Parreira

23 mai 2022 12:15

Este artigo tem mais de 3 anos

O sistema permite aos recetores de voz terem vozes únicas e personalizadas, através de tecnologia de acessibilidade criada para ajudar os mais necessitados.

Direcionado a utilizadores com perturbações da fala, a tecnologia da Xiaomi utiliza algoritmos avançados e tecnologia de voz para o campo da acessibilidade. Na prática, utiliza texto-to-speech num formato espontâneo, ou seja, cada utilizador pode ter uma voz única e personalizada que replicar as suas mensagens escritas.

Criado no Xiaomi AI Lab, os utilizadores podem comunicar com a sua “própria voz” que substitui os habituais sistemas de voz eletrónica, que acabam por ser monótonas e sem expressão. O projeto “Own My Voice” foi considerado bem-sucedido, com a fabricante chinesa a afirmar que é mais um passo na sua missão de ajudar as pessoas a desfrutarem de uma vida melhor através de tecnologia inovadora.

Para desenvolver o sistema de voz mais adequado e personalizado para o destinatário, a equipa de investigação recrutou mais de 200 voluntários da Xiaomi para doarem as suas vozes. Foi usado um algoritmo de correspondência de vozes para fazer corresponder as características das vozes doadas pelos voluntários com as da voz do destinatário. Neste formato, foi encontrada a voz mais adequada como o som básico de referência de voz para o destinatário.

A Xiaomi explica que considerando a personalização e proteção da privacidade, a voz real que foi escolhida foi manipulada com modificações acústicas complexas, de forma a criar um som de voz novo e original. Depois de escolhida a voz, os investigadores da empresa utilizaram tecnologia texto-to-speech de estilo espontâneo para treinar o respetivo modelo de inteligência artificial. Dessa forma, a nova voz foi ganhando um ritmo natural, de forma gradual, com entoações capazes de expressar realisticamente a emoção e tons de um humano. A tecnologia permitiu criar uma genuinidade elevada da voz sintetizada e personalizada para utilizadores com perturbações da fala.

O sucesso de "Own My Voice" depende principalmente da tecnologia Text-To-Speech de estilo espontâneo desenvolvida pela Xiaomi AI Lab. Esta assume comportamentos humanos, desde a entoação, pausa, velocidade e outras características de uma conversação natural. O sistema pode ser adotado de forma mais ampla nas áreas de acessibilidade para melhorar a experiência do utilizador.

Os investigadores vão receber o feedback dos destinatários da voz e continuar a estudar a possibilidade de expandir o projeto a uma gama mais alargada.