
A empresa liderada por Sam Altman explica que, ao longo dos últimos meses, tem trabalhado para avançar a inteligência e as capacidades dos seus agentes à base de texto. “No entanto, para que os agentes sejam verdadeiramente úteis, as pessoas precisam de ter interações mais profundas e intuitivas que vão além do texto, usando linguagem natural para comunicar de maneira eficaz”, defende a tecnológica.
Os novos modelos vão permitir o desenvolvimento de agentes de voz mais “poderosos, personalizáveis e inteligentes”, afirma a OpenAI, realçando o seu desempenho em cenários mais desafiantes, como sotaques, ambientes barulhentos e diferentes velocidades de fala, e na transcrição.
De acordo com a empresa, os novos modelos gpt-4o-transcribe e gpt-4o-mini-transcribe chegam com melhorias na taxa de erros, assim como no reconhecimento de linguagem, em comparação com os modelos Whisper.
A tecnológica detalha que o gpt-4o-mini-tts chega com capacidades que permitem aos programadores “instruir” o modelo sobre o que deve dizer, mas também como o deve dizer, algo que se traduz em experiências de interação mais personalizadas.
Entre as inovações integradas, a OpenAI destaca o pré-treino com recurso a datasets de áudio para melhorar a precisão, assim como o uso de métodos que permitem a transferência de conhecimento entre modelos e de técnicas de aprendizagem por reforço.
Pergunta do Dia
Em destaque
-
Multimédia
Robots da Disney tornam-se mais expressivos (e adoráveis) com tecnologia da Nvidia e DeepMind -
App do dia
Heardly é a app que promete sumários de livros em 5 minutos com a ajuda de IA -
Site do dia
Crie imagens 3D com ajuda da inteligência artificial na plataforma Shapen -
How to TEK
Pesquisa Circle to Search está ainda mais inteligente. Saiba como utilizar
Comentários