A OpenAI publicou um novo vídeo a demonstrar a capacidade de compreensão do GPT-4o dos comandos de voz introduzidos pelo utilizador, adaptando-se aos contextos pedidos. O resultado foi a interpretação de diferentes vozes de personagens, sendo afinado pelo utilizador ao longo do teste resultando em timbres diferentes. Nos testes de voz, a empresa liderada por Sam Altman foi acusada de imitar a voz da atriz Scarlett Johansson, um caso que seguiu para o tribunal.

O modo Voice do ChatGPT será atualizado dentro de semanas e estas amostras deixam antever a possibilidade de os utilizadores personalizarem a voz dos assistentes inteligentes. Até porque as mais recentes notícias dão conta de que existe um acordo entre a Apple e a OpenAI para utilização do modelo de inteligência artificial nos próximos modelos de iPhone.

No novo vídeo, o utilizador deu instruções ao GPT-4o para interpretar personagens de uma história, neste caso um leão magistral e um rato. A capacidade de contar histórias, mudando o tom dramático das vozes das personagens e até a possibilidade de cantar têm dado que falar sobre o potencial para criar conteúdos.

Tal como foi demonstrado anteriormente, é possível interromper a IA a qualquer momento para adicionar novas prompts de voz e afinar o que se pretende em tempo real. A empresa também já tinha colocado dois modelos, em smartphones diferentes, a comunicar entre si. Um tinha a câmara ligada para ver o mundo em redor, a outra apenas ouvia. O resultado foi um sistema a fazer perguntas ao outro, que descrevia aquilo que via em redor. Na segunda parte foi pedido à IA para transformar as descrições do que tinha visto na sala do teste em música, acabando os dois modelos a cantar alternadamente.

GPT e Gemini já interpretam o mundo, conversam entre si e cantam. Quais são as novidades da IA da Google e OpenAI?
GPT e Gemini já interpretam o mundo, conversam entre si e cantam. Quais são as novidades da IA da Google e OpenAI?
Ver artigo

Esta nova geração de modelos de IA parece mais natural e fácil utilização, seja para ajudas de traduções em tempo real, como nas conversas fluidas com a informação disponível. A partir daqui é possível tentar adivinhar as utilizações práticas que podem ter.