Recentemente, a OpenAI lançou três novos modelos da “família” gpt-o4 que, além de contarem com capacidades avançadas de transição, têm voz própria, com vista à criação de agentes de voz mais “poderosos, personalizáveis e inteligentes”, afirma a empresa de Sam Altman.

Os modelos já estão disponíveis para programadores a partir da API para developers. Mas sabia que também pode experimentar o gpt-4o-mini-tts através de uma nova plataforma? A OpenAI.fm funciona como uma demo interativa concebida especialmente para programadores.

Clique nas imagens para ver com mais detalhe

O gpt-4o-mini-tts é um modelo “text-to-speech”, ou seja, permite converter texto em fala. De acordo com a OpenAI, o modelo chega com novas capacidades que permitem aos programadores definir o que será dito, mas também como é que o modelo o deve dizer.

Depois de partilhar o texto a ser dito pelo modelo na OpenAI.fm, pode escolher uma de 11 vozes disponíveis, cada uma com uma personalidade própria. É também possível determinar a “vibe”, escolhendo uma das opções apresentadas.

OpenAI estreia modelos gpt-o4 com voz própria e capacidades avançadas de transcrição
OpenAI estreia modelos gpt-o4 com voz própria e capacidades avançadas de transcrição
Ver artigo

Se desejar, também pode adicionar mais detalhes relevantes relativamente ao tom de voz, entoação e pronúncia. Por outro lado, se não se sentir particularmente inspirado, também pode deixar que a plataforma selecione automaticamente uma voz e estilo.

Quando terminar, pode descarregar o ficheiro de voz criado ou partilhá-lo com outras pessoas através de um link. Uma vez que esta se trata de uma experiência mais orientada para developers, há uma secção que permite aceder a blocos de código (em Python, JavaScript ou cURL) que podem ser depois integrados em projetos.