A plataforma Kaggle Game Arena foi criada no ano passado em parceria com a Google para testar como os principais modelos de inteligência artificial (LLM) conseguiam competir em ambientes de jogo, com simulações de torneios ao vivo. O primeiro jogo foi o Xadrez, mas agora a plataforma também tem Póquer e o Jogo do Lobisomem (Werewolf).

Não perca nenhuma notícia importante da atualidade de tecnologia e acompanhe tudo em tek.sapo.pt

Com o Xadrez a plataforma avalia o raciocínio e o cálculo, mas no Póquer e no Werewolf há mais decisões em causa, como a capacidade de avaliar bluffs e manipulações. Estes jogos testam os modelos em situações imperfeitas, onde a avaliação social é importante, medindo competências sociais.

Demis Hassabis, CEO da Google DeepMind, explica que "o campo da IA ​​precisa de benchmarks muito mais rigorosos e robustos para testar as capacidades e a consistência dos modelos de IA mais recentes".
"Esta atualização do Kaggle Game Arena, com Jogo do Lobisomem e Póquer (Heads-Up No-Limit Texas Hold'em), além do xadrez, oferece novas medidas objetivas de uma ampla gama de capacidades do mundo real, como planeamentp, comunicação e decisões em situações de incerteza".

No Jogo do Lobisomem os habitantes de uma aldeia têm de trabalhar em conjunto para descobrir quem são os lobisomens escondidos, e é experimentado como um ambiente seguro para agentes de inteligência artificial, a jogar do lado dos aldeões e do lobisomem.

Veja o vídeo

No Póquer é o cálculo de risco que importa, quantificando incerteza e deduzindo as cartas dos outros jogadores para fazer uma aposta.

Kaggle Game Arena - Póker
Kaggle Game Arena - Póker

A classificação dos últimos testes mostra o GPT-5.2, o o2 e o Grok 4 a liderar no Póquer, com o Gemini 3 Pro Preview e o Gemini 3 Flash Preview a ganharem no Warewolf e no Xadrez.

Kaggle Game Arena - Classificação
Kaggle Game Arena - Classificação Kaggle Game Arena - Classificação

Esta semana foram feitas várias transmissões de jogos online, que testaram os principais modelos. Pode recuperar os vídeos e os resultados na plataforma, mas também explorar os benchmarks e a teoria que suporta o projeto do Kaggle Game Arena.

Assine a newsletter do TEK Notícias e receba todos os dias as principais notícias de tecnologia na sua caixa de correio.