Apesar de implementados em inúmeros produtos tecnológicos, os sistemas de reconhecimento da fala são ainda demasiado falíveis. São competentes quando articulados com assistentes digitais, com os quais só precisamos de interagir através de ordens que se podem explanar em frases curtas, mas pouco precisos em tarefas mais complexas, como a conversão de uma mensagem ditada para texto, por exemplo. A IBM, no entanto, está a fazer os possíveis para afinar estes sistemas.

Esta segunda-feira, a tecnológica norte-americana anunciou que conseguiu bater o recorde de precisão na conversão automática de discurso oral para escrito com um novo software que alcançou uma taxa de erro de 5,5%. A melhor marca anterior também foi alcançada pela IBM, em 2016, e era de 6,9%.

A empresa esclarece em comunicado que os testes foram feitos durante um diálogo onde duas pessoas mantiveram uma conversa sobre hábitos quotidianos, uma técnica padrão na indústria desde os anos 90. Para alcançar esta nova marca, a IBM combinou um sistema LSTM (Long Short Term Memory ou Longa Memória de Curto Prazo, em português), um modelo de linguagem WaveNet e três modelos acústicos.

A empresa está agora mais perto daquilo que considera ser o equivalente ao cérebro humano, no que toca à percepção do discurso proferido por interlocutores. A indústria considerava que para alcançar a paridade humana bastava chegar à marca dos 5,9%, mas a IBM declara agora que esse nível só deverá ser alcançado aos 5,1%.