A OpenAI revelou o novo agente de inteligência artificial com o nome Operator. Este utiliza um browser próprio, disponível na cloud e compromete-se a ajudar o utilizar a realizar tarefas no mesmo local, que antes teria de saltitar entre janelas e serviços. O Operator está disponível numa primeira fase nos Estados Unidos e é mais uma funcionalidade para utilizadores com uma assinatura Pro do ChatGPT.

Na prática, o Operator explora a internet para realizar tarefas, através do seu browser, podendo olhar para uma página e interagir com a mesma ao escrever, clicar e até fazer scroll. Nesta fase, disponível como uma antevisão de investigação, a OpenAI conta com a ajuda dos utilizadores para testar e dar feedback, para que a experiência seja melhorada.

“O Operator é um dos nossos primeiros agentes, onde a IA é capaz de realizar trabalho para ti independentemente: dás-lhe uma tarefa e ele executa-a”, lê-se na página do agente. Uma das tarefas que o Operator pode ajudar é a realizar tarefas repetitivas no browser, tais como preencher formulários, encomendar compras e até criar memes. Tem também a capacidade de utilizar as mesmas interfaces e ferramentas que os humanos utilizam no dia-a-dia, para ajudar a poupar tempo.

Esta versão de teste vai ajudar a empresa liderada por Sam Altman a aprender com os seus clientes e melhorar o modelo em tempo real. Depois do teste, a OpenAI vai disponibilizar para os modelos de assinatura Plus, Team e Enterprise, assim como a sua integração no ChatGPT no futuro.

Durante uma demonstração, Sam Altman e a sua equipa, aponta a facilidade de utilização. Ao entrar no endereço, vai deparar-se com uma janela de prompt semelhante ao ChatGPT. As diversas prompts disponíveis funcionam mais como exemplos daquilo que o Operator consegue fazer, desde encontrar um restaurante com os requisitos necessários, para determinado dia, seguindo-se o respetivo agendamento. No caso de ter de pagar bilhetes, também pode fazer apenas com prompts. Apenas terá de escolher os serviços disponíveis, neste caso, o OpenTable.

O Operator é baseado num novo modelo da OpenAI que a empresa está a chamar de CUA (computer-using agente), que combina a capacidade de visão do GPT-4o, com capacidade de raciocínio avançado através da aprendizagem reforçada. Esta basicamente foi treinada para controlar um computador da mesma forma que um humano faria. “Este olha para o ecrã e usa o rato e teclado”, referem os investigadores.

OpenAI Operator
OpenAI Operator

O CUA está a ser treinado para interagir com interfaces gráficas do utilizador, incluindo botões, menus e os mesmos campos de texto que as pessoas veem no ecrã. O sistema pode tomar ações numa página de internet sem a necessidade de integrar APIs personalizadas. Caso encontre desafios ou cometa erros, o Operator pode recorrer às suas capacidades de raciocínio e autocorrigir-se. Caso fique preso e necessite de ajuda, este passa o controlo novamente para o utilizador, numa experiência colaborativa.

A empresa diz que o modelo ainda tem limitações e que este vai continuar a ser melhorado com base no feedback. Em breve, os developers vão poder aceder à sua API.

A OpenAI diz que para garantir que o Operator seja seguro, foram adicionadas três camadas de salvaguardas para prevenir o abuso e garantir total controlo dos utilizadores. Quando é necessário introduzir dados sensíveis, o sistema pede ao utilizador para tomar as rédeas da operação, nomeadamente a escrita de credenciais ou informações de pagamento. Neste modo, o Operator não recolhe dados introduzidos.

Outra medida diz respeito às confirmações, antes de finalizar uma ação significante, tais como enviar um email ou fazer uma encomenda, o Operator pede autorização para as mesmas. O Operator foi também treinado para declinar certas tarefas sensíveis, tais como transações bancárias ou outras decisões importantes. O modo Watch garante que em websites sensíveis, como serviços financeiros ou email, o Operator pede supervisão das suas ações, para que possa detetar possíveis erros. A OpenAI diz que é fácil gerir a privacidade dos dados do Operator e total transparência.

Além do agente Operator, a OpenAI anunciou também que o modelo o3-mini vai chegar à oferta gratuita do ChatGPT. O modelo resolve problemas mais complicados, com maior precisão, utilizado em áreas como a ciência ou matemática. Este demora mais tempo a processar, para pensar melhor nas respostas que dá.