Esta semana o lançamento do Gemini da Google veio trazer o potencial dos modelos multimodais, onde a informação de entrada pode ser um vídeo, imagens, código ou áudio, entendendo o contexto e produzindo a resposta aos prompts dos utilizadores.
A Google diz que é o modelo de IA generativa mais poderoso e vai estar disponível em três modelos: Ultra, Pro e Nano. As versões mais avançadas só vão estar disponíveis no próximo ano, mas já é possível tirar partido de algumas das funcionalidades. Por enquanto ainda em modo limitado, só em texto, e só em inglês.
O modelo Gemini Pro está integrado no chatbot Bard e pode ser acedido através da página web, em bard.google.com. Tem de ter acesso a uma conta Google e estar ligado, já que não é possível fazê-lo em modo anónimo.
No futuro o objetivo é que sejam integradas as capacidades multimodais também no Bard, com a ligação às diferentes aplicações da Google, como o Gmail ou o Youtube, entre outras. Este é um dos principais elementos de diferenciação face a outros modelos, como o ChatGPT ou o GPT 4 da OpenAI, ou o Copilot e Bing da Microsoft.
A Google promete adicionar o Gemini ao Bard noutras línguas em breve, mas sem adiantar datas. A versão mais poderosa do Gemini, o Ultra, deve ficar disponível em 2024 e tudo indique que poderá ser usada numa versão "optimizada" do Bard, o Bard Advanced.
Veja o vídeo de apresentação do Gemini da Google
Pergunta do Dia
Em destaque
-
Multimédia
20 anos de Halo 2 trazem mapas clássicos e a mítica Demo E3 de volta -
App do dia
Proteja a galáxia dos invasores com o Space shooter: Galaxy attack -
Site do dia
Google Earth reforça ferramenta Timelapse com imagens que remontam à Segunda Guerra Mundial -
How to TEK
Pesquisa no Google Fotos vai ficar mais fácil. É só usar linguagem “normal”
Comentários