
A empresa liderada por Sam Altman explica que, ao longo dos últimos meses, tem trabalhado para avançar a inteligência e as capacidades dos seus agentes à base de texto. “No entanto, para que os agentes sejam verdadeiramente úteis, as pessoas precisam de ter interações mais profundas e intuitivas que vão além do texto, usando linguagem natural para comunicar de maneira eficaz”, defende a tecnológica.
Os novos modelos vão permitir o desenvolvimento de agentes de voz mais “poderosos, personalizáveis e inteligentes”, afirma a OpenAI, realçando o seu desempenho em cenários mais desafiantes, como sotaques, ambientes barulhentos e diferentes velocidades de fala, e na transcrição.
De acordo com a empresa, os novos modelos gpt-4o-transcribe e gpt-4o-mini-transcribe chegam com melhorias na taxa de erros, assim como no reconhecimento de linguagem, em comparação com os modelos Whisper.
A tecnológica detalha que o gpt-4o-mini-tts chega com capacidades que permitem aos programadores “instruir” o modelo sobre o que deve dizer, mas também como o deve dizer, algo que se traduz em experiências de interação mais personalizadas.
Entre as inovações integradas, a OpenAI destaca o pré-treino com recurso a datasets de áudio para melhorar a precisão, assim como o uso de métodos que permitem a transferência de conhecimento entre modelos e de técnicas de aprendizagem por reforço.
Pergunta do Dia
Em destaque
-
Multimédia
Telescópio Hubble mostra nova perspetiva da “grande aranha” do Espaço -
App do dia
Colorwood Sort é um jogo de puzzles com cores que lhe vai dar a volta à cabeça -
Site do dia
Guarde uma citação ou página que encontrou para consultar mais tarde com o Google Keep -
How to TEK
Cansado do look “default” do iPhone? Saiba como mudar rapidamente o aspecto
Comentários