Conhecido pelos efeitos especiais na captura de movimentos faciais de filmes como o Planeta dos Macacos, King Kong ou Avatar, o Dr. Mark Sagar venceu dois Óscares científicos em 2010 e 2011 pela contribuição na tecnologia de computação animada. É também o CEO e cofundador da Soul Machines, assim como diretor do laboratório de tecnologias de animação no Instituto de Bioengenharia de Auckland.

Com este currículo, o investigador realizou no Gitex Global uma palestra dedicada a um projeto da Soul Machines chamado BabyX. A tecnologia não é nova, na verdade foi criada em 2013, como um bebé animado que tem a capacidade de aprender e reagir, como se fosse um humano real através de inteligência artificial. Este bebé foi desenhado com as semelhanças da sua filha quando esta tinha 18 meses de idade. Um projeto que agora parece ganhar novo fôlego com os avanços introduzidos com a IA generativa.

Mais que oferecer animações faciais detalhadas, algo que Mark Sagar é especialista, o BabyX procura ir mais fundo e simular a forma como o cérebro humano funciona, através de um sistema operativo chamado Brain Language, inventado pelo próprio, juntamente com a sua equipa de investigadores. Estimular as reações neuroquímicas ajudam o BabyX a tomar decisões sobre como reagir perante diferentes situações.

BabyX
BabyX

Basicamente este bebé virtual aprende e reage como um humano, utilizando câmaras de computador com inputs de visão e microfones para ouvir. Os algoritmos de IA ajudam na aprendizagem e na interpretação desses inputs. O resultado é a sua capacidade de aprender a ler, a reconhecer os objetos e a compreende-los. Como output, o bebé reage falando, mas sobretudo através de linguagem corporal, com expressões que valem “mil palavras”, incluindo um sorriso ou cara de admiração.

O investigador fez uma viagem aos primórdios da animação, destacando as primeiras animações em 1906 onde se notam as expressões e a linguagem corporal que começaram a dar sentido real às sequências. Mas passando à frente para a atualidade, o que se pretende é criar a ilusão da vida, de como os avatares conseguem interpretar situações e exprimir-se.

Pegando nos exemplos dos seus filmes anteriores, como Avatar ou King Kong, estes utilizaram técnicas complexas, com diferentes camadas nas expressões faciais. Quando uma personagem sorri, todos os músculos da cara mexem em concordância, oferecendo maior realismo. Para si, a face é um espelho do cérebro, todas as expressões são geradas por pensamentos. Por isso, porque não controlar e coordenar o comportamento das personagens, como se estas realmente sentissem as interações com o mundo?

Veja na galeria imagens do Gitex Global 2024:

Foi criado um sistema nervoso artificial, que não apenas vê, mas aquilo que o corpo sente, refletindo-se nas expressões. A escolha do bebé deve-se ao facto de serem altamente socializáveis, aprendendo através de interações sociais. Para simular o bebé é preciso empregar uma máquina inteligente capaz de aprender de forma autónoma. Para isso utiliza uma experiência multimodal, interações físicas, desenvolvimento incremental, capacidade de explorar e brincar, ser capaz de aprender línguas e ser altamente social. Para Mark Sagar, os bebés exemplificam a interseção holística da cognição, emoção e aprendizagem interativa.

O bebé virtual que foi mostrado foi animado de forma autónoma em tempo real, através de um sistema nervoso virtual. Os vídeos apresentaram mostram um bebé a reagir ao investigador, não apenas através de palavras, mas expressões faciais relacionadas, aprendendo com os comandos que lhe eram dados, neste caso a tocar piano.

Foi feita uma experiência com oito pessoas que nunca tinham visto o BabyX e em todas as situações o bebé virtual aprendeu de forma diferente. Existem motivações extrínsecas para a sua aprendizagem, como recompensas e castigos, mas também intrínsecas como a curiosidade e a interação social. O bebé chega mesmo a fazer perguntas sobre aquilo que não sabe. E com as suas emoções, é referido que muitos cientistas acreditam que a cognição e emoção são inseparáveis, sendo estas as coordenadas entre o cérebro e o corpo.

Veja o vídeo com a demonstração:

Esta investigação do BabyX ainda está em desenvolvimento para validação do modelo. O bebé aprende através da curiosidade e a sua capacidade de brincar, mas também da observação e interação social. No fim, o investigador deixa a pergunta se este pode ser um paradigma para a aprendizagem interativa e socialização da IA.

A exploração e simulação de empatia, a capacidade de entender pela comunicação por voz e assumir as respetivas expressões empáticas são bases de assistentes de IA que a Soul Machines está a criar para que as emoções sejam expressas de forma mais realística. E como fornecedor de humanos digitais para as aplicações utilizadas durante a COVID-19 pela Organização Mundial de Saúde, aponta estudos que mostraram que estes modelos são mais eficazes e ajudaram as pessoas a estarem melhor.