Empresas estão a utilizar fotografias de crianças brasileiras disponíveis na internet para treinar as suas ferramentas de inteligência artificial. O alerta foi avançado pela Human Rights Watch, que aponta o uso das imagens sem o conhecimento e consentimento das crianças. Estas ferramentas são muitas vezes utilizadas para criar deepfakes que colocam as crianças ainda mais em risco de exploração.
“As crianças não deviam ter de viver com o medo de que as suas fotografias possam ser roubadas e transformadas em armas contra elas”, disse Hye Jung Han, um investigador de tecnologia e defensor dos direitos humanos. Aponta que os governos devem urgentemente adotar políticas para proteger os dados das crianças da utilização desmedida da inteligência artificial.
O modelo em questão é o LAION-5B, uma base de dados que está a ser utilizada para treinar ferramentas popular de IA, construído com base em conteúdos que estão na internet. A base de dados contém links para fotos identificáveis de crianças brasileiras, refere a Human Rights Watch na sua análise. A organização diz que os nomes de algumas crianças são listados na legenda que acompanha ou no endereço onde a imagem é guardada. E em muitos casos as suas identidades são facilmente rastreáveis, com informações de quando e onde a criança estava quando a foto foi captada.
As críticas ao modelo LAION-5B não são novas. Investigadores do Stanford Internet Observatory descobriram que o conjunto de dados usado para treinar ferramentas de IA para gerar imagens continha, pelo menos, 1.008 materiais relacionados com abuso sexual de crianças. Recentes modelos, como o Stable Diffusion são treinados com milhares de milhões de imagens da base de dados LAION-5B2. Ao todo, o LAION-5B tem 5 mil milhões de imagens e é usado por muitos modelos de IA.
A Human Rights Watch dá mesmo exemplos de uma fotografia de uma criança de dois anos com um bebé que tinha acabado de nascer ter associada os nomes, assim como o local preciso do hospital onde nasceu e informação que esta tinha sido captada há nove anos. Foram encontradas 170 fotografias de crianças espalhadas por pelo menos 10 estados brasileiros, do Rio de Janeiro a São Paulo. E a organização diz que apenas analisou 0.0001% da base de dados do LAION-5B.
Apesar das imagens analisadas terem crianças desde o nascimento até adolescentes no secundário, a maioria das imagens foram vistas por poucas pessoas e parecem anteriormente ter algum tipo de medida de privacidade, uma vez que não podem ser encontradas através de pesquisas online. Tratam-se de imagens colocadas em blogs de família pelos pais ou crianças, assim como em websites de partilha. Algumas das imagens foram submetidas há vários anos, muito antes da criação do LAION-5B, refere a organização.
Ao utilizar imagens de crianças reais nos treinos, os modelos de IA conseguem reproduzir clones convincentes de qualquer criança, com base numa única fotografia. E fontes maliciosas criam imagens explícitas das crianças, que acabam também por ter como base fotos reais de abusos sexuais de menores que foram também recolhidos pelo modelo LAION-5B.
Pergunta do Dia
Em destaque
-
Multimédia
The Game Awards: Astro Bot conquistou quatro prémios incluindo Jogo do Ano -
Site do dia
Estamos sozinhos no Universo? Pergunta foi a base do projeto SETI há 40 anos -
App do dia
Task Kitchen: a app que transforma listas de tarefas em agendas eficientes -
How to TEK
Mantenha as apps e jogos Android atualizados para evitar vulnerabilidades
Comentários