"As nossas equipas continuam a explorar as fronteiras dos nossos modelos [..] estão a fazer progressos rápidos", afirma o CEO da Google e da Alphabet, a casa mãe. A nova geração do seu modelo de Inteligência Artificial multimodal, o Gemini, foi hoje apresentada e tem "melhorias dramáticas em várias dimensões", com a versão Pro do Gemini 1.5 a atingir a mesma qualidade do Gemini 1.0 Ultra com menos capacidade de computação.

Ainda na semana passada a Google tinha disponibilizado publicamente o Gemini 1.0 Ultra, dando acesso às funcionalidades avançadas de Inteligência Artificial no Gemini Advanced, que substitui o Bard.  A ferramenta ficou pronta para integração em API de developers com o AI Studio e Vertex AI.

Numa corrida para ganhar a liderança na Inteligência Artificial, a Google teve algum azar hoje na escolha da data do anúncio porque a OpenAI acabou por ganhar os principais destaques com o anúncio do seu gerador de vídeo a partir de texto. A Sora tem já uma série de exemplos impressionantes do que se pode fazer com uma simples prompt, e embora não esteja ainda acessível publicamente já está a ser testada.

Hey Google vai usar a inteligência do Gemini para responder. Modelo avançado integra com o Google One
Hey Google vai usar a inteligência do Gemini para responder. Modelo avançado integra com o Google One
Ver artigo

Num longo post publicado no blog da Google, Sundar Pichai partilha detalhes sobre a arquitetura do Gemini 1.5, as suas capacidades e desempenho, mas também as questões de segurança e ética, cada vez mais importante à medida que várias personalidades partilham os receios sobre o impacto da IA na humanidade. Mais detalhes foram partilhados num documento técnico.

Gemini 1.5 Pro disponível para testes de developers e empresas

A nova versão do modelo de IA da Google já pode ser testada por developers no AI Studio, e pelas empresas através das suas contas Vertex AI, na versão Gemini 1.5 Pro. Tal como na organização revelada para o Gemini, há três opções em cada versão do Gemini, com a mais pequena Nano, a média Pro e a avançada Ultra.

Neste caso o Gemini 1.5 Pro tem um nível de desempenho semelhante ao 1.0 Ultra, e foi optimizado para a arquitetura Mixture-of-Experts (MoE). É um modelo multimodal, que pode realizar uma série de tarefas, e traz ganhos significativos naquilo que se entende como percepção longa de contexto.

Google revela modelo de IA mais poderoso. Gemini vai ser usado no Bard e no Pixel 8 Pro
Google revela modelo de IA mais poderoso. Gemini vai ser usado no Bard e no Pixel 8 Pro
Ver artigo

A janela de contexto "normal" é de 128 mil tokens, mas já pode ser esticada a um milhão, pelo menos em testes de alguns developers e clientes empresariais. A Google diz que está a melhorar as questões de latência, evitando a demora nas respostas que tem afetados alguns modelos mais avançados como o GPT 4 da OpenAI.

Para mostrar como é aplicada a melhoria de análise de contexto, a Google partilhou dois vídeos, um dos quais baseado na análise da transcrição das 402 páginas da missão Apollo 11 à Lua.  

Veja o vídeo

Aqui é possível perceber que o Gemini entende as conversas, acontecimentos e detalhes identificados nos documentos da missão.

Um outro exemplo parte da análise de um vídeo do comediante Buster Keaton, em que o modelo avalia os momentos importantes do guião e entende alguns pequenos detalhes.

Veja o vídeo

Também há exemplos de análise de código, num programa com mais de 100 mil linhas, sugerindo alterações e fazendo anotações sobre a forma como diferentes partes do código funcionam.

Em termos de segurança e ética a Google deixa a salvaguarda que o novo modelo é baseado nos mesmos princípios que apresentou em dezembro e que foram feitas várias avaliações antes de avançar com a versão final do Gemini 1.5.