Esta semana o lançamento do Gemini da Google veio trazer o potencial dos modelos multimodais, onde a informação de entrada pode ser um vídeo, imagens, código ou áudio, entendendo o contexto e produzindo a resposta aos prompts dos utilizadores.
A Google diz que é o modelo de IA generativa mais poderoso e vai estar disponível em três modelos: Ultra, Pro e Nano. As versões mais avançadas só vão estar disponíveis no próximo ano, mas já é possível tirar partido de algumas das funcionalidades. Por enquanto ainda em modo limitado, só em texto, e só em inglês.
O modelo Gemini Pro está integrado no chatbot Bard e pode ser acedido através da página web, em bard.google.com. Tem de ter acesso a uma conta Google e estar ligado, já que não é possível fazê-lo em modo anónimo.
No futuro o objetivo é que sejam integradas as capacidades multimodais também no Bard, com a ligação às diferentes aplicações da Google, como o Gmail ou o Youtube, entre outras. Este é um dos principais elementos de diferenciação face a outros modelos, como o ChatGPT ou o GPT 4 da OpenAI, ou o Copilot e Bing da Microsoft.
A Google promete adicionar o Gemini ao Bard noutras línguas em breve, mas sem adiantar datas. A versão mais poderosa do Gemini, o Ultra, deve ficar disponível em 2024 e tudo indique que poderá ser usada numa versão "optimizada" do Bard, o Bard Advanced.
Veja o vídeo de apresentação do Gemini da Google
Pergunta do Dia
Em destaque
-
Multimédia
The Game Awards: Astro Bot conquistou quatro prémios incluindo Jogo do Ano -
Site do dia
Como devem funcionar os modelos de IA de propósito geral? Regras estão a ser alinhadas -
App do dia
Everyone Draw: a app grátis que transforma pixéis em obras de arte coletivas -
How to TEK
Mantenha as apps e jogos Android atualizados para evitar vulnerabilidades
Comentários