A OpenAI anunciou que vai atrasar a disponibilização das novas funcionalidades de voz do seu modelo de inteligência artificial generativa para julho ou agosto, para conseguir aperfeiçoar alguns aspetos. O plano inicial era lançar estas novas funcionalidades no final do mês de junho, para um grupo limitado de utilizadores da versão premium do ChatGPT. A empresa liderada por Sam Altman veio agora dizer que afinal ainda não está pronta. Precisa de mais tempo para garantir que o novo assistente de voz “reconhece e recusa determinados conteúdos”.

Na mesma nota, dá mais alguns detalhes sobre o trabalho que tem vindo a fazer para aperfeiçoar as novidades que mostrou em maio, quando apresentou o GPT-4o. "Também estamos a trabalhar para melhorar a experiência do utilizador e a preparar a nossa infraestrutura para atingir milhões de pessoas, mantendo as respostas em tempo real", refere-se.

A OpenAI diz que o plano de fazer um lançamento faseado da nova versão do modelo mantém-se, de forma a permitir que a utilização vá gerando feedback e que a empresa possa ir validando os resultados dessas interações, para ir fazendo melhorias no modelo. O lançamento generalizado, para todos os clientes do GhatGPT Plus está previsto para o outono.

A OpenAI não arrisca uma data certa e admite que isso dependerá da forma como evoluir nos passos seguintes. Para já sabe que precisará de, pelo menos, mais um mês para apurar os resultados da interação por voz do GPT-4o, o que significa que o modelo não estará disponível antes do final de julho.

As novas capacidades de comunicação por voz do modelo de linguagem da OpenAI chegam com a versão 4o do GPT, que foi apresentada em maio. Vai permitir ao utilizador interagir por voz com o serviço e esperar respostas realistas e fluidas pela mesma via, em tempo real.

Num vídeo divulgado já este mês, a OpenAI mostrou mais algumas capacidades do GPT-4o. Neste novo teaser do que aí vem pedia-se à inteligência artificial para interpretar personagens, como base numa breve descrição de algumas carateristicas dessas personagens. A tarefa foi desempenhada pela IA mudando o tom dramático das vozes entre personagens.

Antes, a OpenAI já tinha sublinhado a capacidade de comunicar de forma mais fluida do novo modelo, que pode ser interrompido a qualquer momento pelo utilizador para adicionar novas prompts de voz e afinar o que pretende sem ter de esperar pelos resultados apurados para a pergunta anterior, também em tempo real.

“Estamos também a trabalhar na implementação das novas capacidades de vídeo e de partilha de ecrã que demonstrámos separadamente e vamos manter-vos informados dos desenvolvimentos”, promete a OpenAI na mesma nota.