Enquanto que o “treino” do AlphaGo passou pelo estudo dos movimentos de mais de 100 mil partidas de Go entre humanos, a versão Zero aprendeu a ganhar a sós com o tabuleiro e com as peças, sem qualquer interferência humana.
Isto foi possível graças à construção de um algoritmo de Machine Learning com as regras do jogo que, sustentado por uma rede neural baseada na aprendizagem por reforço, permite que a máquina aprenda sozinha ao jogar milhões de vezes consecutivas contra si mesma num ambiente virtual.
Se inicialmente, as jogadas da IA eram aleatórias, com cada vitória havia uma atualização do sistema e uma nova aprendizagem. Ao repetir deste esquema, o AlphaGo Zero começou a desenvolver as suas próprias estratégias.
E, bastaram apenas três dias para dominar um jogo de 3.000 anos e vencer a sua antecessora, AlphaGo. Em 100 partidas, a versão Zero conseguiu o pleno. Ao fim de 40 dias de treino, a taxa de vitórias da Zero sobre a AlphaGo era de 90%.
A explicação do desenvolvimento da nova versão do Alpha Go foi publicada na revista científica Nature e, para a equipa da DeepMind, “um objetivo antigo da inteligência artificial é um algoritmo que aprenda, tabula rasa, a ter uma proficiência sobrehumana em domínios complexos”, referem no artigo publicado. “Começando tabula rasa, o nosso novo programa, Alpha Go Zero, alcançou um desempenho sobrehumano.”
Os investigadores concluíram que "É possível treinar até um nível sobrehumano, sem exemplos ou orientação humana, e sem nenhum conhecimento para além das regras básicas.”
Pergunta do Dia
Em destaque
-
Multimédia
Missão Ariel da ESA quer explorar 1.000 exoplanetas e Portugal ajuda com engenharia e ciência -
App do dia
Wayther: uma nova app de previsões meteorológicas detalhadas para otimizar viagens -
Site do dia
Tetr.io é uma versão competitiva de Tetris e os adversários não dão tréguas -
How to TEK
Farto de reagir no WhatsApp com emojis? Crie os seus próprios stickers
Comentários