
Enquanto que o “treino” do AlphaGo passou pelo estudo dos movimentos de mais de 100 mil partidas de Go entre humanos, a versão Zero aprendeu a ganhar a sós com o tabuleiro e com as peças, sem qualquer interferência humana.
Isto foi possível graças à construção de um algoritmo de Machine Learning com as regras do jogo que, sustentado por uma rede neural baseada na aprendizagem por reforço, permite que a máquina aprenda sozinha ao jogar milhões de vezes consecutivas contra si mesma num ambiente virtual.
Se inicialmente, as jogadas da IA eram aleatórias, com cada vitória havia uma atualização do sistema e uma nova aprendizagem. Ao repetir deste esquema, o AlphaGo Zero começou a desenvolver as suas próprias estratégias.
E, bastaram apenas três dias para dominar um jogo de 3.000 anos e vencer a sua antecessora, AlphaGo. Em 100 partidas, a versão Zero conseguiu o pleno. Ao fim de 40 dias de treino, a taxa de vitórias da Zero sobre a AlphaGo era de 90%.
A explicação do desenvolvimento da nova versão do Alpha Go foi publicada na revista científica Nature e, para a equipa da DeepMind, “um objetivo antigo da inteligência artificial é um algoritmo que aprenda, tabula rasa, a ter uma proficiência sobrehumana em domínios complexos”, referem no artigo publicado. “Começando tabula rasa, o nosso novo programa, Alpha Go Zero, alcançou um desempenho sobrehumano.”
Os investigadores concluíram que "É possível treinar até um nível sobrehumano, sem exemplos ou orientação humana, e sem nenhum conhecimento para além das regras básicas.”
Pergunta do Dia
Em destaque
-
Multimédia
Xiaomi "ataca" Porsche e automóveis de alta cilindrada com o elétrico SU7 Ultra abaixo dos 70 mil euros -
App do dia
Mister Antonio: Salte entre planetas e resolva desafios para agradar a um gato muito exigente -
Site do dia
Tem uma montanha de tarefas pela frente? Esta extensão ajuda a manter tudo organizado a partir do browser -
How to TEK
Aumente a privacidade e “tape os ouvidos” ao seu smartphone
Comentários