A Google anunciou o lançamento do Gemini 2.0, aquele que diz ser o seu modelo de IA mais capaz, apresentando novos recursos de multimodalidade. O modelo oferece saídas de imagem e áudio nativas, assim como a utilização de ferramenta nativa que estabelecem a base para experiências agentivas, que permitem planear, lembrar ou agir para os utilizadores, sob as suas orientações.

Foi também apresentado o modelo experimental Gemini 2.0 Flash, que a Google diz ser um assistente mais útil. Pode utilizar este modelo nas versões Gemini para desktop e web mobile e em breve disponível para telemóveis. A Google diz que se trata de uma versão experimental e ainda pode ter bugs. Algumas funcionalidades do Gemini não são ainda compatíveis com este modelo durante o período experimental. O Gemini 2.0 chegou às mãos dos programadores e está a ser testado em grupos de confiança, diz a Google. A Pesquisa é um dos primeiros produtos a receber a segunda versão do modelo.

A empresa está também a lançar um novo recurso designado por Deep Research, que utiliza raciocínio avançado e recursos de contexto longo para atuar como um assistente de investigação, a exploração de tópicos complexos e a compilação de dados. Este recurso está disponível no Gemini Advanced. O recurso apresenta-se como uma alternativa ao recém-lançado OpenAI 01 da dona do ChaGPT, que também foi criado com a capacidade de raciocínio. A nova versão deste modelo é mais rápida e melhor a resolver problemas competitivos de matemática, ciência e código.

Inteligência Artificial da Google faz anos e Gemini agora também faz perguntas
Inteligência Artificial da Google faz anos e Gemini agora também faz perguntas
Ver artigo

A gigante tecnológica diz que nenhum outro produto foi mais transformado pela inteligência artificial do que a Pesquisa e por isso é o primeiro a receber as novas inovações. A IA Overviews chega a mil milhões de pessoas, permitindo fazer novos tipos de perguntas novas, sendo um dos seus recursos de pesquisa mais populares de sempre. Como próximo passo, pretende trazer os seus recursos avançados de raciocínio do Gemini 2.0 para o AI Overviews. Dessa forma, responder a tópicos mais complexos, questões de várias etapas, assim como equações matemáticas avançadas, consultas multimodais e programação. Mais uma vez, semelhante ao OpenAI 01. Os testes começaram esta semana, sendo prometido a chegada a mais utilizadores no início do próximo ano, a mais países e idiomas durante 2025.

Veja o vídeo de apresentação do Gemini 2.0:

O modelo 2.0 será suportado por hardware personalizado como o Trillium e TPUs de sexta geração. A Google diz que estes TPUs impulsionaram 100% o treino e inferência do Gemini 2.0 e o Trillium passa a estar disponível para os seus clientes poderem criar soluções.

Já o Gemini 2.0 Flash é referido como capaz de processamento no dobro de velocidade do modelo anterior 1.5 Pro, introduzindo novos recursos. Oferece suporte a saídas multimodais, desde imagens geradas nativamente que são misturadas com texto e áudio multilíngue de texto para fala, em formato direcionável. Pode também chamar nativamente ferramentas como a Pesquisa Google, a execução de código e funções definidas por um utilizador terceiro.

Gemini 2.0 Flash
Gemini 2.0 Flash

Além das melhoras de raciocínio multimodal,  o Gemini 2.0 Flash tem compreensão de contexto longo, acompanhamento e planeamento de instruções complexas, uso de ferramentas nativas e latência melhorada. Estas funcionam em conjunto naquela que a Google diz ser uma nova classe de experiências de agente. A Google criou o Projecto Astra para investigação, que explora as capacidades futuras de um assistente de IA universal. E agora o novo Projecto Mariner para explorar o futuro da interação entre os humanos e os agentes, como por exemplo o navegador de internet. O Jules é um agente de código com tecnologia de IA para ajudar os programadores.

Outra novidade apresentada que saiu do laboratório da DeepMind é o Genie 2.0, um modelo de IA que permite criar uma variedade infinita de mundos 3D jogáveis. A partir de uma imagem, o modelo criar um mundo virtual com as mesmas características estéticas. O sistema permite raciocinar sobre o jogo com apenas na ação no ecrã e oferecer sugestões do que fazer a seguir através de conversas em tempo real com o developer. A Supercell, um dos principais estúdios de gaming para smartphones está a ajudar a Google a testar estes agentes, a sua capacidade de interpretar as regras e desafios, em diversos géneros de jogos, desde a estratégia presente em Clash of Clans ou os simuladores como o Hay day, ambos da empresa finlandesa.