Empresas estão a utilizar fotografias de crianças brasileiras disponíveis na internet para treinar as suas ferramentas de inteligência artificial. O alerta foi avançado pela Human Rights Watch, que aponta o uso das imagens sem o conhecimento e consentimento das crianças. Estas ferramentas são muitas vezes utilizadas para criar deepfakes que colocam as crianças ainda mais em risco de exploração.

As crianças não deviam ter de viver com o medo de que as suas fotografias possam ser roubadas e transformadas em armas contra elas”, disse Hye Jung Han, um investigador de tecnologia e defensor dos direitos humanos. Aponta que os governos devem urgentemente adotar políticas para proteger os dados das crianças da utilização desmedida da inteligência artificial.

Foi encontrado material de abuso sexual de crianças na maior base de dados que alimenta modelos de IA
Foi encontrado material de abuso sexual de crianças na maior base de dados que alimenta modelos de IA
Ver artigo

O modelo em questão é o LAION-5B, uma base de dados que está a ser utilizada para treinar ferramentas popular de IA, construído com base em conteúdos que estão na internet. A base de dados contém links para fotos identificáveis de crianças brasileiras, refere a Human Rights Watch na sua análise. A organização diz que os nomes de algumas crianças são listados na legenda que acompanha ou no endereço onde a imagem é guardada. E em muitos casos as suas identidades são facilmente rastreáveis, com informações de quando e onde a criança estava quando a foto foi captada.

As críticas ao modelo LAION-5B não são novas. Investigadores do Stanford Internet Observatory descobriram que o conjunto de dados usado para treinar ferramentas de IA para gerar imagens continha, pelo menos, 1.008 materiais relacionados com abuso sexual de crianças. Recentes modelos, como o Stable Diffusion são treinados com milhares de milhões de imagens da base de dados LAION-5B2. Ao todo, o LAION-5B tem 5 mil milhões de imagens e é usado por muitos modelos de IA.

A Human Rights Watch dá mesmo exemplos de uma fotografia de uma criança de dois anos com um bebé que tinha acabado de nascer ter associada os nomes, assim como o local preciso do hospital onde nasceu e informação que esta tinha sido captada há nove anos. Foram encontradas 170 fotografias de crianças espalhadas por pelo menos 10 estados brasileiros, do Rio de Janeiro a São Paulo. E a organização diz que apenas analisou 0.0001% da base de dados do LAION-5B.

A minha imagem foi manipulada e divulgada na internet. O que posso fazer?
A minha imagem foi manipulada e divulgada na internet. O que posso fazer?
Ver artigo

Apesar das imagens analisadas terem crianças desde o nascimento até adolescentes no secundário, a maioria das imagens foram vistas por poucas pessoas e parecem anteriormente ter algum tipo de medida de privacidade, uma vez que não podem ser encontradas através de pesquisas online. Tratam-se de imagens colocadas em blogs de família pelos pais ou crianças, assim como em websites de partilha. Algumas das imagens foram submetidas há vários anos, muito antes da criação do LAION-5B, refere a organização.

Ao utilizar imagens de crianças reais nos treinos, os modelos de IA conseguem reproduzir clones convincentes de qualquer criança, com base numa única fotografia. E fontes maliciosas criam imagens explícitas das crianças, que acabam também por ter como base fotos reais de abusos sexuais de menores que foram também recolhidos pelo modelo LAION-5B.