A tecnologia de manipulação de imagens já permite a criação de vídeos falsos que são capazes de ludibriar até o olho mais atento. Algumas das experiências publicadas online mostram a minúcia com que estes conteúdos podem ser falsificados e o impacto potencial que podem ter na sociedade se forem utilizados, por exemplo, para falsificar discursos políticos ou anúncios públicos por parte de altas entidades do Estado. No entanto, e embora as versões genuínas e falsificadas se assemelhem bastante entre elas, a verdade é que existe um pequeno pormenor que permite distinguir um vídeo falso entre os demais.

De acordo com um grupo de investigadores, os vídeos falsificados pecam por não conseguirem reproduzir com mestria o piscar de olhos a um ritmo que aparente ser orgânico. No artigo "In Ictu Oculi: Exposing AI Generated Fake Face Videos by Detecting Eye Blinking", o grupo da Universidade do Estado de Nova Iorque em Albany (SUNY) conclui que as redes neurais que são utilizadas para sintetizar imagens num vídeo falso, ignoram, geralmente, os movimentos biológicos espontâneos do ser humano, como "a respiração e o piscar de olhos". Os investigadores indicam que, em média, uma pessoa pisca os olhos 17 vezes por minuto, sendo que o número pode subir para 26 piscadelas se o sujeito estiver a falar. A ler, piscamos os olhos apenas 4,5 vezes por minuto.

A equipa da SUNY sublinha a importância deste pormenor, uma vez que os atores políticos, frequentemente utilizados como cobaias nas experiências de manipulação visual que têm sido levadas a cabo neste campo, estão, regra geral, a ler um teleponto quando estão a ser filmados em discurso. Logo, se a média de piscadelas é substancialmente contrastante com as médias apresentadas, é muito provável que as filmagens a que está a assistir não sejam genuínas.

O artigo indica que a razão pela qual os sujeitos não piscam os olhos nestes vídeos, é porque as imagens sintetizadas para a criação do conteúdo falso, que são submetidas online, retratam pessoas de olhos abertos.

Para automatizar o processo de deteção, os investigadores criaram uma tecnologia que analisa o vídeo frame a frame. O sistema, a que chamaram Long-term Recurrent Convolutional Network (LRCN) apresenta uma taxa de sucesso superior às soluções já existentes.

Apesar do avanço que este estudo representa, a equipa defende que a prevenção de fraudes com deepfake deve avançar a um ritmo mais acelerado, uma vez que as tecnologias com potencial malicioso que se estão criar em torno destes sistemas estão a desenvolver-se muito rápido. Um dos últimos programas lançados neste sector é o Deep Video Portraits, que já inclui a possibilidade de se manipular um conjunto de sinais fisiológicos.

"Na minha opinião, o mais importante é que o público esteja ciente das capacidades da tecnologia moderna, especialmente nos sectores do vídeo e da edição", comenta Michal Zollhöfer, professor assistente na Universidade de Stanford, EUA, que auxiliou o processo de desenvolvimento do software Deep Video Portraits. "Este programa vai permitir-lhes pensar de forma mais crítica nos vídeos que consomem todos os dias, especialmente nos casos em que não existem informações que comprovem a fonte de origem".

A tecnologia em causa permite manipular um vídeo ao ponto de ser possível colocar qualquer pessoa a dizer qualquer coisa, ou a fazer qualquer tipo de atividade, sem que as pistas que o desmascaram sejam evidentes. Na internet, estes resultados são normalmente categorizados como deepfakes.