Os sistemas de machine learning e reconhecimento de voz podem requerer vastas descrições para ajudar a compreender aquilo que se está a ensinar. Para tentar encontrar novas soluções de aprendizagem, um grupo de cientistas do MIT concebeu um modelo de machine learning que trabalha de uma forma mais simplificada, comparável à forma como as crianças encaram o mundo.

O sistema consegue identificar os objetos numa cena baseado na sua descrição. Assim, a IA aprende através de palavras gravadas em clips de áudio e objetos registados em imagens raw, fazendo a respetiva associação. Para já o modelo apenas reconhece algumas centenas de palavras diferentes e objetos, mas os investigadores têm esperança de que no futuro o seu sistema possa poupar tempo de trabalho manual e possa ser uma referência no reconhecimento e associação de imagens e palavras.

Embora tenha o potencial para ser utilizado de formas distintas, os investigadores destacam o poder das traduções. A ideia é criar máquinas eficazes que possam cortar a necessidade de utilizar uma pessoa na tradução entre dialetos diferentes. Nesse sentido, o sistema de inteligência artificial poderia absorver as diferentes descrições tendo em conta a linguagem, associadas à mesma coisa, assumindo assim a tradução. Os cientistas afirmam que das cerca de sete mil línguas faladas no mundo, apenas umas 100 têm disponíveis informações de transcrição suficientes para o reconhecimento da linguagem.

“Queremos que o reconhecimento da conversa seja feito de uma forma mais natural, balanceando os sinais adicionais e informações que os humanos beneficiam ao utilizá-los, mas que por norma os algoritmos de machine learning não têm acesso. O nosso sistema funciona como se estivéssemos a passear com uma criança pelo mundo, narrando tudo o que vemos”, destaca David Harwath, um dos investigadores envolvidos no projeto.

Newsletter

Receba o melhor do SAPO Tek. Diariamente. No seu email.

Na sua rede favorita

Siga-nos na sua rede favorita.